爬虫
silence cc
这个作者很懒,什么都没留下…
展开
-
抓包工具Fiddler的下载 、安装及对谷歌浏览器进行抓包使用
一 Fiddler的安装和配置 打开工具Fiddler,在Tools选项里面点击options 配置完后,重启Fiddler二 谷歌浏览器插件SwitchyOmega的安装使用 SwitchyOmega的github下载地址:https://github.com/FelisCatus/SwitchyOmega/releases 三 使用Fiddler对谷歌浏...原创 2018-06-14 20:03:49 · 13575 阅读 · 1 评论 -
使用scrapy及组件scrapy-redis进行分布式爬取腾讯社招
scrapy本身是不支持分布式爬取的,但和组件scrapy-redis一起使用,则支持分布式爬取。分布式爬取原理:所有爬虫端共享redis里面的request请求,然后从这里面获取请求,再去爬取,直至队列为空。共使用了3个系统,win10和ubuntu作为爬虫客户端,另外一个ubuntu存放redis数据库用来保存爬取的数据 请求及去重指纹。遇到的问题:爬取时有一个爬虫端不能爬取数据,...原创 2018-09-10 18:48:53 · 725 阅读 · 0 评论 -
scrapy-redis所有request爬取完毕,如何解决爬虫空跑问题?
scrapy-redis所有request爬取完毕,如何解决爬虫空跑问题?1. 背景根据scrapy-redis分布式爬虫的原理,多台爬虫主机共享一个爬取队列。当爬取队列中存在request时,爬虫就会取出reque...转载 2018-09-12 18:53:13 · 683 阅读 · 0 评论 -
关于使用scrapy_redis组件没有存取scrapy的请求到redis数据库的问题的解决
发现在使用scrapy_redis组件时,运行爬虫时,在redis数据库里面只有items数据列表和去重指纹集合,但没有scrapy的请求request数据列表,经过不断测试,发现只有在停止爬虫爬取时,才可以在redis数据库里面看到scrapy的request数据列表。爬取前的redis数据库,里面内容为空。 数据爬取中时,观察发现只有Items和dupefilter数据,但没有s...原创 2018-08-17 06:53:20 · 3237 阅读 · 10 评论 -
scrapy-redis使用以及剖析
这是转载博客园上的一篇文章,通过下面的这行代码解决了把scrapy的request 存入到redis数据库里面,没开启前只有item列表和去重集合存储到redis数据库。# Enables scheduling storing requests queue in redisSCHEDULER = "scrapy_redis.scheduler.Scheduler"scrapy-redis...转载 2018-08-16 22:49:53 · 525 阅读 · 0 评论 -
使用selenium + Chrome爬取某网站乌云公开漏洞文章并保存为pdf文件
目的:使用selenium + Chrome爬取某网站指定类型的乌云公开漏洞文章,即在win10终端输入漏洞类型(如未授权),则爬取所有该类型的漏洞文章,并把每个分页的数字作为文件夹名,来保存该分页下面的所有的漏洞文章。总结:本例只是能简单的爬取某一类型漏洞的所有文章,但不能爬取多个类型漏洞的所有文章,有时可能会有一些小bug导致没爬取完就崩溃,需要手工修改进而重新爬。其它问题解决看注释。...原创 2018-08-12 15:44:24 · 731 阅读 · 0 评论 -
Python必会的单元测试框架 —— unittest
这是huilan_same博客写的关于python的单元测试框架unittest,写的真心不错,转载过来以备学习使用。关于如何快速转载别人博客,参考CSDN怎么转载别人的博客 对于转载过程中出现有些内容不在代码块范围内,可在使用markdown编辑时,选中不在代码块的内容,按一次tab键解决 用Pyth...转载 2018-08-09 23:59:33 · 209 阅读 · 0 评论 -
爬取某网站的所有乌云漏洞文章,保存为pdf文件
鼎鼎大名的乌云,存在了6年左右,就停摆了,真是可惜。。。这是从某个网站看到的乌云文章,爬取保存下来以作学习使用创建一个文件夹wooyun,把下面的代码保存到一个文件如test.py,放在该文件里面# -*- coding: utf-8 -*-import urllib2import pdfkitfrom lxml import etreeimport timeimport r...原创 2018-07-31 23:25:24 · 1281 阅读 · 0 评论 -
使用mongodb保存爬取豆瓣电影的数据
创建爬虫项目doubanscrapy startproject douban设置items.py文件,存储要保存的数据类型和字段名称# -*- coding: utf-8 -*-import scrapyclass DoubanItem(scrapy.Item): title = scrapy.Field() # 内容 content = scr...原创 2018-07-27 12:15:19 · 815 阅读 · 1 评论 -
使用scrapy爬取新浪新闻
使用scrapy爬取新浪新闻 思路:通过观察,获取某节点作为当前节点,然后依次遍历大类链接 小类链接 子链接 要点:注意item和meta参数的使用。详情见代码newsina.py里面相关的注释 总结:个人因为item的位置,导致浪费了好多时间。 流程如下:创建爬虫项目sina2scrapy startproject sina2设置items.py文件,存储要爬取的数据类型及...原创 2018-07-27 00:22:04 · 4694 阅读 · 5 评论 -
使用scrapy爬取阳光热线问政平台
目的:爬取问题反映每个帖子里面的标题、内容、编号和帖子urlCrawlSpider版流程如下:创建爬虫项目dongguangscrapy startproject dongguang设置items.py文件# -*- coding: utf-8 -*-import scrapyclass NewdongguanItem(scrapy.Item): # 每...原创 2018-07-20 14:26:43 · 1414 阅读 · 0 评论 -
python2使用bs4爬取腾讯社招
目的:获取腾讯社招这个页面的职位名称及超链接 职位类别 人数 地点和发布时间要求:使用bs4进行解析,并把结果以json文件形式存储注意:如果直接把python列表没有序列化为json数组,写入到json文件,会产生中文写不进去到文件,所以要序列化并进行utf-8编码后写入文件。# -*- coding:utf-8 -*-import requestsfrom bs4 import...原创 2018-07-07 00:00:12 · 2825 阅读 · 0 评论 -
使用selenium + chrome爬取中国大学Mooc网的计算机学科的所有课程链接
目的:使用selenium + chrome爬取计算机学科的所有的课程链接列表思路:找到每个分页的节点属性为class=”m-course-list” 的div元素,再找到该元素下面的类属性为class = “u-clist f-bg f-cb f-pr j-href ga-click”的div元素的属性data-href的值,使用xpath获取。难点:在网页源码里面,是看不到相关的课程链...原创 2018-07-12 18:07:42 · 2839 阅读 · 4 评论 -
使用scrapy爬取腾讯社招,获取所有分页的职位名称及chaolia、类型、人数、工作地点、发布日期超链接
目的:把腾讯社招的每个分页的职位名称及链接、类型、人数、工作地点、发布日期爬取下来,然后存储到json文件里面思路: 1. 新建爬虫项目 2. 在items.py文件里面设置存储的字段名称及类型 ...原创 2018-07-11 13:23:46 · 1348 阅读 · 0 评论 -
使用scrapy爬取手机版斗鱼主播的房间图片及昵称
目的:通过fiddler在电脑上对手机版斗鱼主播进行抓包,爬取所有主播的昵称和图片链接关于使用fiddler抓取手机包的设置:把手机和装有fiddler的电脑处在同一个网段(同一个wifi),手机连接好wifi后,点击手机wifi的连接,把代理改为手动,主机地址设置为fiddler所在的电脑ip,端口号为8888(fiddler默认使用的端口号),就可以对手机进行抓包1 创建爬虫项...原创 2018-07-16 18:11:21 · 692 阅读 · 0 评论 -
使用python2爬取百度贴吧指定关键字和分页帖子楼主所发的图片
目的:在百度贴吧输入关键字和要查找的起始结束页,获取帖子里面楼主所发的图片思路:获取分页里面的帖子链接列表 获取帖子里面楼主所发的图片链接列表 保存图片到本地注意事项:问题:在谷歌浏览器使用xpath helper插件时有匹配结果,但在程序里面使用python内带的xpath匹配却为空的原因。原因:不同服务器会对不同的浏览器返回不同的数据,导致在谷歌浏览器看到的和服务器...原创 2018-06-27 11:10:31 · 2544 阅读 · 0 评论 -
使用python2爬取有道翻译
爬虫的核心思想:模拟浏览器正常访问服务器,一般情况只要浏览器能访问的,都可以爬,如果被反爬,则考虑反复测试添加Request Header数据,知道可以爬取为止。反爬思路目前知道的有:User-Agent,Cookie,Referer,访问速度,验证码,用户登录及前端js代码验证等。本例遇到js验证 User-Agent Referer Cookie共计4种反爬机制。关键部分是,参数hea...原创 2018-06-17 17:35:27 · 2467 阅读 · 0 评论 -
使用urllib2简单爬取并保存内涵吧内涵段子指定分页的的描述信息
对内涵8的内涵段子url 爬取每个分页上面显示的描述信息,按回车键继续对下一页进行爬取,输入quit退出爬取。思路:爬取每个页面的源码 对源码进行处理(使用正则),获取指定信息 保存信息# -*- coding:utf-8 -*-#!/usr/bin/env pythonimport urllib2import redef writepage(content,...原创 2018-06-22 16:01:12 · 2478 阅读 · 0 评论 -
scrapy_redis 解决空跑问题,自动关闭爬虫
使用过scrapy_redis框架的人一定知道,scrapy redis 在没有requests的时候,会阻塞等待接收start_url...转载 2018-09-13 17:26:34 · 1365 阅读 · 1 评论