9.25爬虫篇（1）

最新推荐文章于 2021-06-29 09:41:05 发布

花匠键盘

最新推荐文章于 2021-06-29 09:41:05 发布

阅读量102

点赞数

本文链接：https://blog.csdn.net/weixin_43344710/article/details/101610325

版权

Python3 网络爬虫

页面种类：1. 静态页面；2. 动态页面
网址URL
审查元素：F12

# -*- coding:UTF-8 -*-
import requests

if __name__ == '__main__':
    target = 'http://www.biqukan.com/1_1094/5403177.html'              #target 目标
    req = requests.get(url=target)
    #requests.get()方法必须设置的一个参数就是url，因为我们得告诉GET请求，我们的目标是谁，我们要获取谁的信息。
    print(req.text)

乱码！你还不解决？

乱码解决
 乱码解决实现

文内容从这些众多的html标签中提取出来呢？这就是本次实战的主要内容。

爬虫的第一步，获取整个网页的HTML信息，我们已经完成。接下来就是爬虫的第二步，解析HTML信息，提取我们感兴趣的内容。

在解析html之前，我们需要创建一个Beautiful Soup对象。BeautifulSoup函数里的参数就是我们已经获得的html信息。然后我们使用find_all方法，获得html信息中所有class属性为showtxt的div标签。find_all方法的第一个参数是获取的标签名，第二个参数class_是标签的属性

花匠键盘

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
9.25爬虫篇（1）

Python3 网络爬虫页面种类：1. 静态页面；2. 动态页面网址URL审查元素：F12# -*- coding:UTF-8 -*-import requestsif __name__ == '__main__': target = 'http://www.biqukan.com/1_1094/5403177.html' #target 目标...
复制链接

扫一扫