爬虫
文章平均质量分 77
avenue轩
虽不能至 心向往之
展开
-
xpath爬取58二手房的房源信息
首先打开58主页面,点击二手房可以看到该网页有大量后缀,类似https://wh.58.com/ershoufang/?PGTID=0d100000-0009-e946-8366-2e5413b67852&ClickID=2直接将后面删除使用https://wh.58.com/ershoufang/再访问,仍然不影响得到网页上的数据。然后打开检查,通过左上角我们可以得到选择元素可以看到我们想要爬取的放在信息在class="house-list-wrap"属性下,而每一条信息则是在li标签中。如图:原创 2020-11-18 14:24:35 · 729 阅读 · 0 评论 -
爬取糗事百科图片(正则案例)
首先前面来到糗事百科中的热图页面。然后右键检查打开浏览器的抓包工具,如下图所示:通过对请求headers与响应response与element的分析,我们可以了解到图片链接就在该地址栏的网址下的div标签下的img标签的src中。通过将链接在地址栏输入可以得到验证。然后我们就可以对一个个图片通过正则进行匹配了,通过使用 .*?来匹配一次任意字符串。注意大家写正则的时候,注意原字符串空格等都不要忽略了,否则可能导致匹配失败。分页爬取的时候,我们可以观察其他页面的url,下一页中例如https://ww原创 2020-10-31 11:29:20 · 1709 阅读 · 0 评论 -
爬取肯德基餐厅信息(requests模块)
首先打开肯德基餐厅主页,找到下面的餐厅查询点击进入。通过检查打开浏览器自带抓包工具。点击搜索我们发现页面只有局部刷新。那么此时应该是ajax请求了。那么此时我们通过抓包工具XHR里面的请求。然后我们查看该url,请求为post,携带的参数Form-Data。content-type为text文本类型。了解这些必备参数之后,我们就可以进行爬取数据了。通过调整 ‘keyword’: ‘’,‘pageIndex’:’’,‘pageSize’: ‘’,三个参数我们可以获取我们想要搜索的关键字,页面,页面长度原创 2020-10-27 16:52:53 · 1642 阅读 · 0 评论 -
爬虫之简易的网页采集器(代码与教程)
使用requests模块原创 2020-10-11 09:37:00 · 1421 阅读 · 0 评论