爬虫
文章平均质量分 63
fiery_heart
这个作者很懒,什么都没留下…
展开
-
随机生成ua的库
from fake_useragent import UserAgentua = UserAgent()ua.ieMozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US);ua.chromeMozilla/5.0 (compatible; MSIE 10.0; Macintosh; Intel Mac OS X 10_7_3; T...原创 2019-10-29 15:58:51 · 8500 阅读 · 0 评论 -
python爬虫
整理一些平常看到的关于爬虫的文章2019-01-03Python爬虫开源项目代码,爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网等 代码整理原创 2019-01-03 18:10:42 · 148 阅读 · 0 评论 -
使用scrapy抓取人民网体育、社会模块
分析网站刚开始看完网站的这两个模块,感觉很麻烦,需要写很多解析函数,写很多规则,对两个模块下的每个小模块逐个进行处理,然后就朝着这个方向开始写,写到一半发现,我不仅需要判断这个模块里有没有图片,还要判断这个模块属不属于图集,感觉应该是自己方向错了,于是就重新观察网站,结合之前写的解析,最后分析发现: 我所需的数据,无非就是文章标题,文章内容,文章里的图。只是页面结构不一样,并且2015年之前...原创 2018-09-03 14:49:13 · 614 阅读 · 0 评论 -
scrapy-crawlspider爬取某新闻网站住房有关文章
首先创建项目,创建爬虫 scrapy startproject qianlongwang # 创建了一个项目在项目的根目录下,创建爬虫,一个项目可以有多个爬虫 scrapy genspider -t crawl fangchan xxxx.com # 创建了一个名为fangchan的爬虫,并指定了爬虫的活动范围第一步:明确需求也就是搞清楚自己想要什么数据,然后再...原创 2018-08-29 17:34:15 · 462 阅读 · 0 评论 -
一个简单的基于async/aiohttp的爬虫
import asyncioimport aiohttpfrom lxml import etreeimport queueurlQ = queue.Queue()f = open("title22.txt", "w",encoding='utf-8')async def get_html(url): ck = """Hm_lvt_dbc355aef238b6原创 2018-08-21 22:09:18 · 1468 阅读 · 0 评论 -
多线程爬取一点资讯
首先观察网站,明确爬取目标经过观察,发现这个网站的数据都是异步加载的,而我此次爬取的目标,是一点资讯-段子模块下的内容分析目标站点既然是异步加载的,就可以在控制台的 Network标签下的xhr里面可以看到,异步请求的地址。如下 还有可以看到请求的参数 尝试请求数据有了请求地址,有了请求所需的参数,肯定会先试验一波。 经过试验,发现这个地址是正确的,会返回json数据...原创 2018-08-24 21:37:18 · 1867 阅读 · 5 评论 -
xpath
选取div[@class=”author clearfix”]节点的同级节点的第一个a标签 div[@class=”author clearfix”]/following-sibling::a[1] 选取当前节点下所有文本内容 content = site.xpath(‘string(./div[@class=”content”]/span)’) 也可以参照这个http://www....原创 2018-08-29 03:03:59 · 309 阅读 · 0 评论 -
协程爬取贴吧里发帖内容(redis做任务队列,mongo存储)
是用redis做任务队列时,要思考: 用什么数据类型来做任务队列 怎样才能防止重复爬取 首先了解一下redis可以存储什么数据类型: 字符串String 哈希hash 列表list 集合set 有序集合zset 浏览完这几种数据类型的功能之后,决定用list来做任务队列,用set来解决思考的问题,就是防止重复爬取的问题。 大概思...原创 2018-08-28 01:13:54 · 419 阅读 · 0 评论 -
scrapy的信号(signal)以及对下载中间件的一些总结
直接往redis里记录一下,我今天爬了多少数据 是否和我预期一样 爬虫状态码异常,你怎么查 我的爬虫没任务了它就会退出了,我不想它退出怎么办 爬虫关闭了,我不想看进程,我希望给我来个邮件 怎么办 我现在给你一批url让你去爬,完了,我待会再给你一批。时间不确定 你怎么办?以上,完美的阐述了scrapy信号的用途。首先,信号的一些基本概念就不说了,可以直接百度 : scra...原创 2018-08-31 00:07:46 · 3605 阅读 · 0 评论 -
python3多线程爬虫(初级)
多线程爬虫,主要是玩队列,队列玩明白了,多线程自然也就起来了。#导入各种包import threadingimport queueimpot jsonfrom lxml import ertee定义爬取类,需要继承多线程:class down_spider(Threading.Thread): def __intit__(self,urlQ,dataQ): ...原创 2018-08-03 10:08:08 · 6082 阅读 · 4 评论