爬虫
爱学习的小邋遢
小白一枚
展开
-
xpath获取两个标签之间的内容
在使用xpath解析网页数据时,会面临一些不好处理的网页,如下所示:目标是分别拿到中的文本和其后跟随的标签的内容。使用xpath进行处理:拿到数据在将结果保存为自己想要的格式即可。附上全部代码:...原创 2022-06-15 09:21:07 · 1595 阅读 · 1 评论 -
定时爬虫自动抓取过去一周的数据
前言:前两天要爬一个撤稿论文网站,抓包发现请求方式是post。遇到post怎么办?不要慌,来一遍:1.利用前端知识分析请求数据。2.selenium模拟浏览器。但是因为数据比较着急要,在看了post请求数据后,有两条没看懂是如何生成的,便果断转selenium。(太年轻了,修行之路漫漫)经过分析后知道这个网站主要是输入国籍和时间就可以拿到所属国家的撤稿论文数据,但是只展示600条数据,因此...原创 2020-04-10 22:18:01 · 714 阅读 · 0 评论 -
requests+selenium获取cookies
目的:对于一些网页的cookies值变化的,用selenium模拟浏览器拿到cookies,再用requests发送请求拿到数据。通过一个小代码展示一下:目标:拿到黑龙江省采购网中标信息。思路:1.构造URL,selenium拿到cookies,发送post请求。2.拿到每一个中标项目的URL,发送get请求,拿到数据。3.保存数据。具体代码如下:import requestsf...原创 2020-03-02 18:44:49 · 1221 阅读 · 0 评论 -
selenium+chromedriver的心得
对于一些ajax,或者请求方式为post,且需要发送数据的网页可以使用selenium+chromedriver来解决。虽然效率上比较慢,但是代码简单。以下以一个简单例子来了解以下:目的:抓取甘肃省政府采购网信息中的中标公告的内容。分析网页后得到如下思路:1.构造每一页的url2.点击中标公告,点击查询,得到中标页面3.得到每一个公告的URL,拿到数据。4.保存数据构造每一页ur...原创 2020-03-02 16:41:20 · 397 阅读 · 0 评论