任务预览
1.学习beautifulsoup,并使用beautifulsoup提取内容;使用beautifulsoup提取丁香园论坛的回复内容。(丁香园:http://www.dxy.cn/bbs/thread/626626#626626 )
2.学习xpath,使用lxml+xpath提取内容;使用xpath提取丁香园论坛的回复内容。(http://www.dxy.cn/bbs/thread/626626#626626)
** beautifulsoup与xpath简介**
用正则表达式提取页面信息非常繁琐且易出错,而对于网页节点来说,它可以定义id、class或其他属性,且节点间还有层次关系,在网页中可以通过XPath或CSS选择器来定位一个或多个节点。所以在页面解析时,利用XPath或CSS选择器来提取某个节点,然后再调用相应方法获取它的正文内容或者属性,就可以提取到我们需要的信息了。
在python中,要实现上述操作,可使用解析库beautifulsoup、lxml。
1.beautifulsoup
(beautifulsoup为三方库需安装)
2.lxml+xpath
(beautifulsoup为三方库需安装)