Datawhale|第八期 爬虫2

任务预览

1.学习beautifulsoup,并使用beautifulsoup提取内容;使用beautifulsoup提取丁香园论坛的回复内容。(丁香园:http://www.dxy.cn/bbs/thread/626626#626626
2.学习xpath,使用lxml+xpath提取内容;使用xpath提取丁香园论坛的回复内容。(http://www.dxy.cn/bbs/thread/626626#626626)

** beautifulsoup与xpath简介**
用正则表达式提取页面信息非常繁琐且易出错,而对于网页节点来说,它可以定义id、class或其他属性,且节点间还有层次关系,在网页中可以通过XPath或CSS选择器来定位一个或多个节点。所以在页面解析时,利用XPath或CSS选择器来提取某个节点,然后再调用相应方法获取它的正文内容或者属性,就可以提取到我们需要的信息了。
在python中,要实现上述操作,可使用解析库beautifulsoup、lxml。

1.beautifulsoup

(beautifulsoup为三方库需安装)
在这里插入图片描述
在这里插入图片描述

2.lxml+xpath

(beautifulsoup为三方库需安装)
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值