scrapy
张小腿
这个作者很懒,什么都没留下…
展开
-
scrapy 批量插入更新mysql, kafka模版
Pipeline中写通用方法,模版在下方: def get_kafka_client(): client = KafkaClient(hosts=','.join(KAFKA_HOSTS), broker_version="1.1.0") return client def get_connect(): connect = pymysql.Connect( ...原创 2019-12-03 16:35:50 · 605 阅读 · 0 评论 -
scrapy脚本运行测试
scrapy运行方法为命令行输入 scrapy crawl spider 当我们需要在脚本中运行时,可以这样: from scrapy import cmdline cmdline.execute('scrapy crawl spider'.split()) 当我们一个项目里有多个爬虫时,如果使用上述方法,只会运行第一个爬虫 from scrapy import cmdline ...原创 2018-09-04 13:56:35 · 523 阅读 · 0 评论 -
利用redis搭建分布式爬虫
项目需求为采集所有400开头的企业电话。 企业电话有 ['4000', '4001', '4006', '4007', '4008', '4009'] 六种开头,共计600W条,每条一次请求,共600W次请求。 由于时间较紧,需采用分布式爬取策略。 任务分析: 1、scrapy-redis会存储需要爬取的url,但url太长,会多占用redis服务器内存空间。 2、redis中不能同时存...原创 2018-08-06 17:41:53 · 250 阅读 · 0 评论 -
scrapy编码问题--终极版
爬虫遇到编码不对的情况是家常便饭,普通情况我就不一一说明了,一般常用 .encode('utf-8') .decode('utf-8') 编码-解码两个方法,多试几次总能解决。 当遇上一种情况,不管怎么调都无法转换正常编码的情况下,是由于在请求时需要直接对 response 进行编码转换。 即对应 requests 的 r = requests(url) r.encoding = '...原创 2018-09-13 11:40:16 · 1038 阅读 · 0 评论 -
scrapy 自定义图片路径保存,并存到数据库中
scrapy中有个自带的pipeline工具,ImagesPipeline,可以专门用来储存图片到本地。 但默认储存地址无法配置,所以我们需要写一个自己的pipeline用于储存图片。 先分析一下我们的需求: 1.修改图片路径,路径根据采集到的item中的数据变化; 2.将数据库中保存图片的url更改为我们的本地文件路径。 首先需要继承原pipeline: class Down...原创 2018-09-18 17:15:10 · 1817 阅读 · 2 评论