爬虫
文章平均质量分 92
差点是美男****
没
展开
-
做了个简单的post请求爬虫,爬取广东省科技厅关于创新的新闻
朋友的课程设计需要用到数据,叫我帮个忙,好久没做爬虫了,有些生了,当时分析网页发现是post请求,然后去找了请求的地址,发现from-data要传的数据没多少,发生变化的只有keywords跟page,那简单了,你要什么,我就给你什么,返回json数据,loads成字典,拿到详情页url,再requests发get请求,响应结果用lxml的etree.HTML转换给xpah提取数据,数据直接插入数据库,好了。import requestsimport jsonimport reimport time原创 2020-07-19 18:56:52 · 270 阅读 · 1 评论 -
scrapy-redis爬取房天下658个城市的新房跟二手房信息
今天做了一个爬取房天下这个网站的爬虫,爬取了上面全国658个城市的新房跟二手房的信息。分析网站房天下:https://www.fang.com/SoufunFamily.htm,爬虫从这个页面开始按省份分组,请求每个城市的链接,然后分别请求页面上买新房跟买二手房的链接,进入到页面,然后按每个房子的信息分组,接着就可以提取信息了。全部代码如下爬虫.py(提取数据)# -*- coding: utf-8 -*-import scrapyimport copy # 每个方法间传递数据要用到深原创 2020-06-19 23:50:45 · 636 阅读 · 5 评论