爬虫练手——使用Beautiful Soup、XPath分别获取丁香园论坛回复内容

简单整点吧

简单的说,Beautiful Soup就是Python的一个html或xml的解析库,可以用来从网页中提取数据。
BeautifulSoup在解析时实际上以来解析器,它除了支持Python标准库中的html解析器外,还支持一些第三方解析器(比如lxml)。用法介绍就看文档和一些书籍就好了,推荐崔庆才的《 Python3网络爬虫开发实战》。
再说说XPath,全称是XML Path Language,XMl路径语言,是一门在XML文当中查找信息的语言。它最初是用来搜索XML文档的,不过同样适用于HTML文档的搜索。Xpath的选择功能十分强大,提供了非常简洁的路径选择表达式。另外,它还提供了超过100个内建函数,用于字符串、数值、时间的匹配以及节点、序列的处理等等,几乎所有想要定位的节点都可以用XPath来选择。

XPath常用规则
表达式 描 述
nodename 选择此节点的所有子节点
/ 从当前节点选取直接子节点
// 从当前节点选取子孙节点
· 选取当前节点
. . 选取当前节点的父节点
@ 选取属性
爬取丁香园论坛回复内容

如往常一样,打开浏览器,打开pycharm新建一个py文件,在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值