爬虫
番茄西瓜汤
这个作者很懒,什么都没留下…
展开
-
Fiddler 使用手册
好久没更新了额windows系统上的 抓包神器, 可惜 Mac上没有,所以平时我用的 Charles, 基本功能相差很小。网页抓包记住: 配置完后都需要重启HTTPS按照提示安装 SSL 证书设置抓包类型必须设置为可以远程捕获,因为要抓APP的包开启网页抓包火狐抓包因为谷歌等浏览器是使用系统的代理,所以无需额外设置。进入设置选中高级选择网络选择链接设置选择使用系统代理!然后配置火狐可信任的证书设置高级证书查看证书导入证书(证书在 Fidd原创 2020-08-24 11:36:00 · 1300 阅读 · 1 评论 -
Scrapy框架 中 Spider 子类 CrawlSpider 爬虫进行全站爬取方法
CrawSpider全站爬取利器CrawSpider 是 Spider的一个子类使用流程终端cd 目录 scrapy startproject 工程名 (创建项目)终端cd到下面根目录 scrapy genspider chouti -t 爬虫名 起始url目录解析class ChoutiSpider(CrawlSpider): name = 'chouti' ...原创 2018-11-17 17:29:35 · 523 阅读 · 0 评论 -
Scrapy框架 分布式爬虫scrapy-redis组件 使用
使用流程Redis基于内存,读写速度快,也可做持久化,但是内存空间有限,当数据量超过内存空间时,需扩充内存,但内存价格贵;MySQL基于磁盘,读写速度没有Redis快,但是不受空间容量限制,性价比高;大多数的应用场景是MySQL(主)+Redis(辅),MySQL做为主存储,Redis用于缓存,加快访问速度。需要高性能的地方使用Redis,不需要高性能的地方使用MySQL。存储数据在M...原创 2018-11-17 17:30:52 · 362 阅读 · 0 评论 -
利用mitmproxy注入JS登录淘宝功能
2019TB更新反爬后,以前网上的淘宝登录功能教程失效了尊重淘宝 只提供思路,不提供实例代码大前提熟练使用并掌握JavaScript 要能看懂,能写出来工具python3mitmproxy原理利用 mitmproxy 做拦截,注入js代码修改TB的js这里是 mitmproxy的使用教程...原创 2019-03-02 16:18:30 · 2874 阅读 · 0 评论 -
【教程】搭建免费代理IP池、代理IP小金库教程
总体分5个类redis储存库板块抓取代理IP板块检测代理IP可用性板块API调用板块调度器板块GitHub 代码地址自建代理池系统pip3 install asynciopip3 install aiohttppip3 install flaskpython3.7以轻量级Flask作为服务端,提供接口调用安装之后启动redis服务配置代理池vim sett...原创 2019-03-09 23:08:01 · 787 阅读 · 0 评论 -
爬虫必备技能 熟练使用正则RE模块
正则爬虫技术中必不可少的技能re.search查找返回第一个匹配结果参数描述pattern正则string匹配字符串flags控制匹配方式:区分大小写,多行匹配等返回对象可调描述.span()匹配到(起始位置,结束位置).group(num=0)匹配到的所有结果.group(1)括号把匹配结果分成多...原创 2019-03-16 10:16:37 · 200 阅读 · 0 评论 -
最新美团token生成算法
觉得还不错的,加个星starGitHub 示例测试2019年4月20日可用,餐饮板块token生成器原创 2019-04-22 09:47:35 · 3358 阅读 · 0 评论 -
爬虫部署到Docker 中的方法 和案例
爬虫部署到Docker文章目录爬虫部署到Docker1. 打包所需模块2. 创建Dockerfile文件3. 调整数据库连接地址4. 构建镜像5. 推送DockerHub6. 服务器运行镜像本地调试与修改镜像vim下载安装保存修改1. 打包所需模块在项目目录下创建一个 名为 requirements 的文件,文件内记录本项目用到的模块,如有特殊需求可设置模块版本号,例如:scrapys...原创 2019-04-22 20:43:55 · 3230 阅读 · 0 评论 -
python 异步模块asyncio、aiohttp、gevent
asyncio、aiohttp、gevent模块文章目录asyncio、aiohttp、gevent模块概述基础示例核心解析创建 task绑定回调函数await 挂起耗时操作aiohttp 网络访问并发访问多进程配合关闭协程同类型 gevent 模块概述在Python3.6后,可以通过关键词async def来定义一个coroutine协程,协程就相当于未来需要完成的任务,多个协程就是多...原创 2019-05-11 14:14:15 · 1645 阅读 · 1 评论 -
原创小工具 - 可拓展式字符串解密器
引子GitHub代码有的情况下遇到传输工程中的,经常会遇到一些经过编码后的串,我们可以根据自己的经验和调试测试对其进行判断。他们可能是经过多次编码转换来的,所以每次调试的时候略显麻烦,本着一次开发,长久受益的想法,就着手开发了一个**【可拓展式解码器】**需求 解码失败自动回跳到解码之前状态 可连续解码 (比如将 base64 转码后的结果,再进行字节流解压) 可跟踪流式解码...原创 2019-06-02 11:24:07 · 378 阅读 · 0 评论 -
拼多多登陆 JS 密码字段加密解析
个人博客网站拼多多登陆 JS 密码字段加密解析若有侵权请立即联系作者删除!!!目标: X多多自动登录时对密码字段的加密抓登陆包网址 https://mms.pinduoduo.com/login打开调试工具,随意输入一个账号密码点击登陆然后我我们看到一个 POST 请求https://mms.pinduoduo.com/janus/api/auth可见密码是在 js 中加...原创 2019-07-23 22:45:33 · 4989 阅读 · 0 评论 -
大众点评最新字体解密19年7月
我的原文博客在此、https://www.zhangkunzhi.com/?p=72有网友说我之前写的 大众点评字体解密 的方法已经失效了,所以更新一篇解密 2019年7月25日。查看加密看到都是小框框,为了一探究竟我们查看源码找到加密处所有文字都是  > 这样的怪符号。一脸懵逼,这和之前点评网站的字体反爬完全不同了。查看页...原创 2019-07-28 23:41:17 · 1624 阅读 · 12 评论 -
基于Scrapy框架爬取电影网数据的案例
需求爬取电影网 链接 的电影信息GIT源码创建好项目后开始进行步骤配置setting# 指定终端输出日志LOG_LEVEL = 'ERROR'# 19行 请求身份伪装user_agent 定义USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, ...原创 2018-11-16 20:27:10 · 1107 阅读 · 0 评论 -
scrapy框架设置代理IP 和 日志输出控制案例
代理IP在中间件midlewares文件中添加类,模仿自带的中间件写# 自定义下载中间件,实现process_request()添加代理ipclass MyProxy(object): '''代理IP设置''' def process_request(self, request, spider): # 更换代理ip request.met...原创 2018-11-16 16:16:30 · 2947 阅读 · 0 评论 -
requests模块基本使用、代理ip、session访问
python原生基于网络请求的模块,比urllib更实用相比urllib优势自动处理编码自动处理post请求参数、并转码简化cookie和代理操作安装使用pip install requests代理IPhttp://www.goubanjia.com/注意!! 代理如果代理ip为http协议 那么post协议也统一httpget与post参数请求类型...原创 2018-11-14 00:20:34 · 6221 阅读 · 0 评论 -
selenium自动化模拟访问、谷歌及无屏phantomJs
selenium可以模拟操作浏览器常用配合浏览器谷歌浏览器谷歌 配合驱动chromedriver版本对照表驱动下载地址phantomJs 浏览器phantomJs 无屏浏览器更便捷下载地址注意事项quit()与close() 前者关闭驱动和浏览器 后者只关闭且一个tab调试时会有警告提醒,忽略即可常用方法定位查找定位:find_element_by...原创 2018-11-15 15:00:52 · 228 阅读 · 0 评论 -
Scrapy爬虫框架 使用流程、框架、储存模式介绍
Scrapy特色建议 使用 xpath 进行解析 (因为Scrapy集成了xpath接口)高性能爬虫、多线程、数据解析、持久化存储安装mac下 pip install scrapy使用流程终端cd 目录 scrapy startproject 工程名 (创建项目)终端cd到下面根目录 scrapy genspider 爬虫名 起始url编写配置文件 setting.py#...原创 2018-11-15 23:49:47 · 268 阅读 · 0 评论 -
Scrapy框架 基于管道 储存数据到本地文件流程、案例
流程思路将解析数据存到items对象使用yield 将items交给管道文件处理在管道文件pipelines编写代码储存在setting配置文件开启管道案例setting.py配置文件取消注释,数字为优先级ITEM_PIPELINES = { 'qiubaiPro.pipelines.QiubaiproPipeline': 300, # 300优先级}爬虫文件...原创 2018-11-15 23:51:08 · 1575 阅读 · 0 评论 -
scrapy框架 基于mysql数据库储存数据方法、案例
流程思路将解析数据存到items对象使用yield 将items交给管道文件处理在管道文件pipelines编写代码储存到数据库在setting配置文件开启管道案例items中按照格式定义字段import scrapyclass QiubaiproItem(scrapy.Item): # 语法: 字段 = scrapy.Field() author =...原创 2018-11-15 23:52:01 · 690 阅读 · 0 评论 -
Scrapy框架 数据同时存到mysql 和 本地磁盘 及优先级设置
在管道文件内编写pipelines管道文件另外写一个类来处理储存# 储存方式1class QiubaiproPipeline(object): # 对提交的item对象,mysql数据库储存 # 爬虫每次提交item,该方法被执行一次 def process_item(self, item, spider): return item# 将数据...原创 2018-11-15 23:58:26 · 307 阅读 · 0 评论 -
基于requests 简单的豆瓣网平台自动打码登录
1.对携带验证码页面进行获取2.解析下载到本地(有的网站并不是img格式不能直接下载)要解析案例基于 打码平台 www.yundama.com获取页面上的图片并保存到本地import requestsimport refrom lxml import etree # 利用xpath解析def get_img(img_file_name): url = 'htt...原创 2018-11-14 21:29:05 · 1832 阅读 · 0 评论 -
python爬虫三大解析数据方法:正则 及 图片下载案例
基本正则用法回顾# 提取pythonkey = 'javapythonc++php'print(re.findall('python', key)[0])# 提取hello worldkey = '<html><h1>hello world</h1></html>'print(re.findall('&l原创 2018-11-14 21:50:59 · 378 阅读 · 0 评论 -
python爬虫三大解析数据方法:xpath 及 爬段子网案例
下载pip install lxml浏览器插件插件xpath安装,XPath Helper 浏览器快捷键control+shift+x 用于测试自己的xpath是否写对了注意etree创建对象时 etree.parse('本地路径') 或 etree.HTML('网上请求到的页面')常用方法返回值都是列表from lxml import etreeetree = etr...原创 2018-11-14 21:52:09 · 2534 阅读 · 0 评论 -
python爬虫三大解析数据方法:bs4 及爬小说网案例
bs4 python独有可以将html文档转成bs对象,可以直接调用bs对象的属性进行解析安装pip install bs4本地html Beautiful(“open(‘路径’)”,‘lxml’)网络html Beautiful(‘网络数据’, ‘lxml’)常用属性和方法class_='class避免系统冲突加 _'!!!from bs4 import Beautif...原创 2018-11-14 21:53:20 · 3588 阅读 · 2 评论 -
scrapy 同时爬取多url方法实例
案例需求:爬取评论页面第1页到第10页内容 一共爬10个url思路递归调用parse 直到每个页面爬取完方法class QiubaiSpider(scrapy.Spider): name = 'qiubai' # allowed_domains = ['www.qiushibaike.com/text'] start_urls = ['https://ww...原创 2018-11-16 16:14:05 · 11721 阅读 · 0 评论 -
scrapy框架 用post 爬取网站数据 的两种方法区别
post请求,一定要重新调用父类的 start_requests(self)方法方法1:(推荐)重构start_requestsdef start_requests(self): data = { 'source': 'index_nav', 'redir': 'https://www.douban.com/', '....' ...原创 2018-11-16 16:15:38 · 824 阅读 · 0 评论 -
爬虫:urllib模块使用和注意事项
urllib 并不是python爬虫的首选模块!!使用流程食用即可使用流程# 需求:爬去搜狗页面https://www.sogou.com/import urllib.request# 指定urlurl = 'https://www.sogou.com/'# 指定url发起请求,返回响应对象response = urllib.request.urlopen(url=url)...原创 2018-11-13 10:09:38 · 197 阅读 · 0 评论