python爬虫利器之xpath_在EXCEL中使用Python爬虫利器Xpath爬取网页中的元素

上一篇介绍了如何在EXCEL中用正则表达式抓取网页中的信息,文章链接:

用EXCEL像Python一样优雅的抓取网页中的信息

,但有的人说,正则表达式那么难我不会啊,VBA太难我也不会,不想编程,有没有更简单的方法。所以这篇文章为大家介绍一款EXCEL插件,seotoolsforexcel,安装这个插件后就可以用Xpath爬取网页信息了。

1.先打开浏览器检查,选中需要抓取的元素,拷贝Xpath表达式,这里就抓取百度首页"百度一下"四个字符吧。其它网页原理一样。拷贝下的表达式为“//*[@id="su"]”

copy Xpth

2.安装好seotoolsforexcel后点击SeoTools选项卡-HTTP按钮-XPathOnUrl函数

XPathOnUrl

3."百度一下"这四个字符所在的html段是在弹出的XPathOnUrl属性中分别填入"https://www.baidu.com”,".//*[@id='su']",value即可,具体填写方法和爬取效果如下图

XPathOnUrl填写方法

4.点击Http settings 在弹出的Http settings 对话框中还可以定义请求头、定义认证信息、设置随机requests请求等,非常强大有木有

Http settings

5.其实XPathOnUrl只是seotoolsforexcel中其中一个函数而已,它还有很多强大的功能比如解析JSON的函数JsonPathOnUrl、爬虫工具Spider等,读者可以自己摸索一下,下图给大家参考一下。

JsonPathOnUrl

爬虫工具Spider

6.教程到此结束,有不懂得地方可以留言一起讨论下。下载方式如下

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值