网络爬虫之基于XPath爬取百度贴吧图片详细教程(可输入版)


本教程阅读需要3分钟

网络爬虫的爬取的流程

网络爬虫的步骤可总结为四步走:
发送请求→接收响应→分析页面→保存数据

爬取步骤详解

1、打开浏览器进入需要爬取的页面

输入自己想要爬取的内容,点击自己想要爬取的链接,并注意页面的url跳转变化
注意图中标注数字的地方,数字顺序无关紧要
输入需要爬取的内容

2、通过插件来获取爬取的信息

本次用到的插件是xpath Finder 以及ChroPath for firefox
通过xpath Finder点击响应的链接,获取其xpath信息,结合ChroPath for firefox,查询其内在的信息,将其分析,提取出有用的数据
通过插件爬取

3、进入页面观察页面内容并完成代码的编写

在这里插入图片描述 需要注意页面跳转时候的规律以及变化,方便页面变化的编写

(1)、发送请求

 requests.get(url,params=kw)

(2)、接收响应

response = requests.get(url,params=kw)

(3)、分析页面并提取页面信息

因为本次爬取的内容是图片,所以找到图片的相应信息

			html = response.content
            #etree.HTML 解析页面信息 通过xpath
            lxmlobj = etree.HTML(html)
            #通过xpath进行提取
            #xpath 语法  :// 代表从匹配选择的当前节点选择文档中的节点,而不考虑其位置
            #@ 选取属性
            #//a 的意思是从前面获取的html中提取出a标签
       
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值