crawler
迷途无归
风险》资本》劳动
展开
-
scrapy 分布式 redis增设密码
redis分布式爬虫 在原有基础上redis 增设密码,需要进行一定的设置1、settings.pyREDIS_HOST = '172.16.1.101'REDIS_PORT = 6379REDIS_PARAMS = {'password': 'wR2E&EblAbKNq1Ub',}2、起始url设置:run_scrapy_redis_start_url.sh#!/bin/bashsource /etc/profileredis-cli -a 'wR2E&EblAbK原创 2020-12-31 16:10:38 · 338 阅读 · 0 评论 -
scrapy 常用又常被忽略的库
1、浏览器动态渲染:splash 注:效果类似于seleium配合chrome原创 2019-02-18 14:45:31 · 361 阅读 · 0 评论 -
scrapy 解决302重定向问题
单独yield请求时禁用重定向yield Request(url, meta={ 'dont_redirect': True, 'handle_httpstatus_list': [302] }, callback=self.pars...原创 2019-01-08 19:57:40 · 13717 阅读 · 8 评论 -
爬虫——headers中的神坑
1、Content-Length: 最好在headers中不要加这个字段,通过工具测试是好好的,一写入爬虫就报错:(failed 1 times): 400 Bad Request。一个下午找不到哪里错了,吐血。。。。。2、"Content-Type": "application/x-www-form-urlencoded" 这里就不得不提chrom(按F12...原创 2018-12-29 15:41:52 · 3448 阅读 · 0 评论 -
分布式爬虫——爬取bilibili视频信息资源
废话不多说,直接上代码:https://github.com/hilqiqi0/crawler/tree/master/simple/bilibili%20-%20redis一、项目介绍:爬取bilibili网站上的全部视频信息(不包含直播;广告和放映厅栏);信息量为千万级,爬取任务较为重,所以采取分布式爬虫。二、说明:a、设备说明: 1、mysql和redi...原创 2018-11-13 14:41:56 · 2595 阅读 · 0 评论 -
手机app数据爬取难度等级评估
一般来说网络数据爬取有两个来源,一个是网页,另一个是移动终端(手机app);随着移动终端的普及和推广,更多的用户甚至已经放弃了网页的访问,因此爬取移动端的数据更为合适。但是,爬取移动端app数据具有不同的难度等级;与网页相比,移动端app可以针对自身的请求数据进行特殊的加工处理,有些数据并不是很透明。难度评估:*:此类app没有进行特殊的防护,可以直接在网页访问app中请求的url...原创 2018-10-29 10:40:10 · 3115 阅读 · 0 评论 -
大众点评 —— 爬虫 小样例
这是一个大众点评数据的爬取,爬取信息包含:是否含有广告推广,商店名称,电话号码;并将爬取的数据保存到csv文件以及mysql数据库。数据采集视频:https://www.bilibili.com/video/av32892172/github源码参考:https://github.com/hilqiqi0/crawler/tree/master/simple/dianping采用技术:...原创 2018-10-02 10:16:44 · 3675 阅读 · 6 评论 -
爬虫:Instagram信息爬取
这是一个关于Instagram爬虫的介绍。GitHub源码参考(代码和爬取数据):https://github.com/hilqiqi0/crawler/tree/master/simple/instagram 爬取的每个数据保存格式:{ 图片的访问路径,评论数,点赞数,帖子的内容 }eg:{ "img_url": "https://scontent-sin6-2.c...原创 2018-10-01 10:38:12 · 16459 阅读 · 2 评论 -
人工智能(crawler)—— 爬虫琐碎
参考源码:https://github.com/hilqiqi0/AI/tree/master/4.crawlerHASH算法(对某段信息打指纹,能够压缩信息,HASH算法是不可逆的)import hashlibh = hashlib.md5()h.update(("hello world").encode("utf-8"))print(h.hexdigest())User-A...原创 2018-08-31 09:46:03 · 1559 阅读 · 1 评论 -
人工智能(crawler)—— 爬虫综合
目录内容简介第一章 爬虫简介1.1 什么是网络爬虫1.1.1 爬虫的简单定义 1.1.2 爬虫的分类1.2 为什么需要爬虫1.2.1 爬虫的用途1.2.2怎么做爬虫第二章 爬虫的基本常识2.1 爬虫的合法性问题2.2 爬虫的准备工作:网站的背景调研2.2.1 robots协议2.2.2 网站地图sitemap2.2.3 估算网站的大小...原创 2018-08-13 15:28:37 · 29016 阅读 · 1 评论