Python基础爬虫 Task 2

最新推荐文章于 2024-05-02 20:05:43 发布

Y_Jireh

最新推荐文章于 2024-05-02 20:05:43 发布

阅读量191

点赞数

文章标签： Python 基础爬虫

本文链接：https://blog.csdn.net/Y_Jireh/article/details/90177824

版权

Task 2:
2.1 学习beautifulsoup
1、学习beautifulsoup，并使用beautifulsoup提取内容。
2、使用beautifulsoup提取丁香园论坛的回复内容。

Beautifulsoup（BS4）是Python的一个第三方库，用来从HTML和XML中提取数据。

丁香园的网站已给：http://www.dxy.cn/bbs/thread/626626#626626 。
在这里插入图片描述
可见所需要的评论是在标签class='postbody’下。

用BeautifulSoup来抓取评论。
在这里插入图片描述
首先导入requests 和 BeautifulSoup模块
用get方式获取网页页面，用BeautifulSoup模块解析网页
用find_all方法来获取自己需要的信息。
find_all()返回的是BeautifulSoup Tag对象组成的列表，如果没有找到任何满足要求的标签，就会返回空列表。
find_all函数的用法：
find_all(name,attrs,recursive,text,**kwargs)
name就是HTML的标签名，类似于body、div、ul、li、td、a。
attrs参数的值是一个字典，字典的key是属性名，字典的Value是属性值。

抓取的内容为下：
在这里插入图片描述
2.2 学习xpath
1.学习xpath，使用lxml+xpath提取内容。
2.使用xpath提取丁香园论坛的回复内容。

from lxml import etree 
import requests

response = requests.get('http://www.dxy.cn/bbs/thread/626626#626626')
selector = etree.HTML(response.text)
info = selector.xpath('//td[@class="postbody"]/text()')
print(info)

在这里插入图片描述