Python基础爬虫 Task 2

Task 2:
2.1 学习beautifulsoup

1、学习beautifulsoup,并使用beautifulsoup提取内容。
2、使用beautifulsoup提取丁香园论坛的回复内容。

Beautifulsoup(BS4)是Python的一个第三方库,用来从HTML和XML中提取数据。

丁香园的网站已给:http://www.dxy.cn/bbs/thread/626626#626626
在这里插入图片描述
可见所需要的评论是在标签class='postbody’下。

用BeautifulSoup来抓取评论。
在这里插入图片描述
首先导入requests 和 BeautifulSoup模块
用get方式获取网页页面,用BeautifulSoup模块解析网页
用find_all方法来获取自己需要的信息。
find_all()返回的是BeautifulSoup Tag对象组成的列表,如果没有找到任何满足要求的标签,就会返回空列表。
find_all函数的用法:
find_all(name,attrs,recursive,text,**kwargs)
name就是HTML的标签名,类似于body、div、ul、li、td、a。
attrs参数的值是一个字典,字典的key是属性名,字典的Value是属性值。

抓取的内容为下:
在这里插入图片描述
2.2 学习xpath
1.学习xpath,使用lxml+xpath提取内容。
2.使用xpath提取丁香园论坛的回复内容。

from lxml import etree 
import requests

response = requests.get('http://www.dxy.cn/bbs/thread/626626#626626')
selector = etree.HTML(response.text)
info = selector.xpath('//td[@class="postbody"]/text()')
print(info)

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值