16.Python使用lxml爬虫

1.lxml是解析库,使用时需要导入该包,直接在命令行输入:pip3 install lxml,基本上会报错。正确应该去对应的网址:https://pypi.org/project/lxml/#files,直接下载对应的lxml

(根据python版本自己去选择,笔者是python3.6,故下载:lxml-4.2.4-cp36-cp36m-win32.whl ,切换到下载的whl目录,在该目录下执行:

pip3 install lxml-4.2.4-cp36-cp36m-win32.whl 

2.代码如下所示:

import requests
from lxml import etree

url = 'https://www.mafengwo.cn/gonglve/ziyouxing/2033.html'

response = requests.get(url)   #返回一个response对象
page = response.text

html = etree.HTML(page)      #返回一个Element对象,将字符串解析为HTML文档
content = html.xpath('//h2')

for i in content:
    print(i.text)

3.代码解释:

A:定义好url的路径,使用url获取到response对象   如:url = ''

B:需要将reponse对象转化为字符串格式,page = response.text

C:使用解析库将字符串转为为HTML文档,根据自己想要获取的内容去定义xpath路径

转载于:https://www.cnblogs.com/android-it/p/9593727.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值