python xpath爬取新闻标题_Python利用requests和xpath爬取网页内容过程

1.xpath()函数的使用-之后会练习使用find_all()函数需要安装lxml库,xpath()方法放回的结果是一个列表1.1 XPath 常用规则例子:这是一个 XPath 规则,代表的是选择所有名称为 title,同时属性 class 的值为 eng 的节点,后面会通过 Python 的 lxml 库,利用 XPath 进行 HTML 的解析。1.2 获取文本1.3 要提取的信息有大量空...
摘要由CSDN通过智能技术生成

1.xpath()函数的使用-之后会练习使用find_all()函数

需要安装lxml库,xpath()方法放回的结果是一个列表

1.1 XPath 常用规则

例子:

这是一个 XPath 规则,代表的是选择所有名称为 title,同时属性 class 的值为 eng 的节点,后面会通过 Python 的 lxml 库,利用 XPath 进行 HTML 的解析。

1.2 获取文本

1.3 要提取的信息有大量空格

使用normalize-space()函数:

1.4 多属性匹配

1.5 提取的网址不是完全意义上的网址

只是部分的网址,例如这个网站提取的就是缺少https://dl.58.com的网址,所以要给加上这一块,当提取完后,可以直接这样:

1.4 遇到tbody的情况如何处理:

这是网页的规范性问题,可以直接跳过,我们定位路径的时候可以直接忽略这个点

1.5 提取的内容有好多tr,td:

这个时候我们可以直接定位到某一个点:

2

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值