python爬虫
公众号菜鸟童靴
在不退步的同时,保持的一点点的进步,欢迎关注个人博客https://boyyongxin.github.io/
微信公众号:菜鸟童靴
展开
-
如何过掉前端Chrome的debugger反调试
1.禁用浏览器断点点击图中按钮,之后将不会再命中任何断点。这种方法虽然可以防止无限循环命中debugger断点,但是也存在很大的缺陷,因为对于其他代码,我们还是需要断点调试功能的。所以这个方法仅限于静态分析。2、直接使用debugger指令使用了间隔setInterval轮询,直接用debugger指令,则可以在Chrome找到对应行(格式化后),右键行号,选择Never pause here即可。3、使用条件断点4.手动替换代码既然修改响应结果无法满足需求...原创 2020-05-27 15:41:12 · 5621 阅读 · 0 评论 -
关于Connection aborted问题的解决方案(爬虫中遇到)
无意间发现的小反爬虫手段,在此记录一下错误类型在爬虫中报如下的错误:requests.exceptions.ConnectionError: (‘Connection aborted.’, RemoteDisconnected(‘Remote end closed connection without response’,))解决方法(1)随机切换User-Agent:user_agent_list = [ "Mozilla/5.0 (Windows NT 10.0; WOW6转载 2020-05-11 23:35:06 · 12627 阅读 · 1 评论 -
如何快速写一个爬虫代码
微信搜索“菜鸟童靴”,选择“关注公众号”我们一起开启Python进阶之旅!目标获取网页源码:以百度首页网址为例:https://www.baidu.com/使用工具:psotman如何操作呢:打开百度首页,选择chrome + F12抓包右键 +copy +选择copy as cURL (bash),复制好链接,打开postman,顺序点击import、 PasteRaw Text将复制好的链接,粘贴进去,点击...原创 2020-05-11 23:03:38 · 725 阅读 · 0 评论 -
js注入
最近刚出了新闻,阿里四名网络安全部门员工利用网页漏洞写js脚本抢月饼,于是兴致来了,想了解一下这个js脚本到底怎么写,各种刷单各种抢枪抢又是怎么实现的。什么是javascript注入攻击? 1.每当接受用户输入的内容并重新显示这些内容时,网站就很容易遭受 JavaScript 注入攻击。让我们研究一个容易遭受 JavaScript 注入攻击的具体应用程序。假设已经创建了一个客户反馈网...转载 2020-05-04 21:42:30 · 934 阅读 · 0 评论 -
python如何下载MP4视频和获取时长
我们做爬虫工作时,经常会遇到要把爬取的视频下载到本地做存储,那么我们如何使用python去下载视频呢,下载视频不是本文章的重点,在此废话不多说,直接上完整的代码:def download_file(url, base_path, filename='', call_func=''): file_path = base_path + filename directory = o...原创 2020-03-30 23:12:57 · 2217 阅读 · 0 评论 -
execjs执行js代码报错:Exception in thread Thread-1
最近在爬一个js数据加密的网站的时候,出了点问题,困扰了我两天直接运行js文件的时候正常,但是用execjs运行js代码的时候总是会报错最后翻了很多博客之后,终于找到了原因:原因是有一个程序在使用TextIOWrapper 类创建对象时默认使用了gbk编码,读取不了utf-8的字符,所以我们可以修改下subprocess.py文件的默认编码方式为utf-8即可...原创 2020-03-10 08:35:23 · 736 阅读 · 0 评论 -
为什么每一个爬虫工程师都应该学习 Kafka
摄影:产品经理与产品经理环游世界的瞬间这篇文章不会涉及到Kafka 的具体操作,而是告诉你 Kafka 是什么,以及它能在爬虫开发中扮演什么重要角色。一个简单的需求假设我们需要写一个微博爬虫,老板给的需求如下:开发爬虫对你来说非常简单,于是三下五除二你就把爬虫开发好了:接下来开始做报警功能,逻辑也非常简单:再来看看统计关键词的功能,这个功能背后有一个网页...转载 2019-12-16 12:02:27 · 252 阅读 · 1 评论 -
Scrapy爬虫框架(四)Downloader Middleware介绍
了解scrapy原理后,我们知道downloader Middleware 在整个架构中的作用的位置:1、在Scheduler 调度处队列的Request发送给Downloade 下载之前,也就是request执行下载之前对其进行修改2、在下载后生成的response 发送给Spider之前,也就是我们可以在生成的resopnse被spider解析之前修改Downloader...原创 2019-12-14 16:52:55 · 614 阅读 · 0 评论 -
python 代码实现喜马拉雅xm-sign的生成
import requestsimport timeimport hashlibimport randomclass ximalaya(object): def __init__(self): self.headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x6...原创 2019-12-05 15:55:13 · 984 阅读 · 0 评论 -
Scrapy爬虫框架(三)Item Pipeline 介绍
1、scrapy爬取数据保存到文件scrapy crawl 项目名 -o 文件名.json2、保存的文件类型还有很多种csv,xml,pickle,marshal,ftp远程输出其他的写法差不多,ftp输出需要配置用户名,密码,地址,输出路径scrapy crawl 程序名 -o ftp://user:pass@ftp.example.com/path/to/tes...原创 2019-12-07 18:58:32 · 338 阅读 · 0 评论 -
Scrapy爬虫框架(二)入门实战
1.创建项目scrapy startproject XX项目名XXscrapy startproject guangdong_chizheng2.创建spider爬虫py文件cd guangdong_chizhengscrapy genspider example example.com查看创建后的代码:# -*- coding: utf-8 -*-impor...原创 2019-11-30 16:18:38 · 265 阅读 · 0 评论 -
嘘,我已经瞒着开发解锁APP日志文件抓取及分析啦!
APP日志查看工具(一)DDMSDalvik Debug Monitor Service ( Dalvik调试监控服务) ,可视化的图形界面调试监控工具。不同等级log信息显示的颜色不同,使用起来方便直观。ddms监控系统或应用日志、监控线程状态、VM使用状况(内存泄漏通过它来判断)、模拟短信电话事件、生成logcat日志、文件管理及截屏等功能。打开方式:(前提:已增加JAVA环境...转载 2019-11-27 12:54:19 · 337 阅读 · 0 评论 -
python 破解字体反爬 (二)
上一篇我介绍了破解58同城的字体反爬https://blog.csdn.net/BigBoy_Coder/article/details/103239672中间遗漏了几个细节,在这边文章我做一下补充:遗漏点一:并不是所有的字体文件格式都是.ttf格式的文件,这里我们要针对原网页的,进行判断怎么判断呢?比如:https://su.58.com/qztech/右键查看源码,...原创 2019-11-26 14:26:22 · 628 阅读 · 1 评论 -
python 破解字体反爬 (一)
爬取一些网站的信息时,偶尔会碰到这样一种情况:网页浏览显示是正常的,用python爬取下来是乱码,F12用开发者模式查看网页源代码也是乱码。这种一般是网站设置了字体反爬这里我们以58同城为例:点击进入https://sz.58.com/chuzu/链接:网页显示数据为:网页原码数据为:从上面可以看出,生这个字变成了乱码,请大家特别注意箭头所指的数字。在这里里我...原创 2019-11-25 17:08:37 · 4378 阅读 · 0 评论 -
Scrapy爬虫框架(一)原理介绍
Scrapy爬虫原理:架构分为如下几个部分:Scrapy Engine:引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件,此组件相当于爬虫的“大脑”,是整个爬虫的调度中心。 调度器(Scheduler):调度器从引擎接受request并将他们入队,以便之后引擎请求他们时提供给引擎。 初始的爬取URL和后续在页面中获取的待爬取的URL将放入调度器...原创 2019-11-23 14:40:25 · 409 阅读 · 0 评论 -
笔记_自动化工具uiautomator2安装和使用教程
1、参考链接GitHub: https://github.com/openatx/uiautomator22、工作原理:三、uiautomator2工作原理:如图所示,python-uiautomator2主要分为两个部分,python客户端,移动设备 python端: 运行脚本,并向移动设备发送HTTP请求 移动设备:移动设备上运行了封装了uiautomato...原创 2019-11-14 18:11:21 · 2221 阅读 · 0 评论 -
笔记_mitmproxy安装和使用方法总结
MitmProxy 介绍:支持 HTTP 和 HTTPS 的抓包程序,类似 Fiddler、Charles 的功能,只不过它是一个控制台的形式操作。 同时 MitmProxy 还有两个关联组件,一个是 MitmDump,它是 MitmProxy 的命令行接口,利用它我们可以对接 Python 脚本,用 Python 实现监听后的处理。另一个是 MitmWeb,它是一个 Web 程序,通过它我们...原创 2019-11-13 16:56:19 · 626 阅读 · 1 评论 -
app爬虫反编译(一) 之反编译工具
(一)反编译工具(安卓逆向助手)给大家介绍一个特别牛的工具全自动的。(Android逆行助手.exe)下载链接:https://download.csdn.net/download/bigboy_coder/111801191、将.apk 文件直接拖进逆向助手 。选择提取dex点击操作,执行完生成dex 文件2、将提取好的dex 文件 再次拖进逆向助手,选择dex转j...原创 2019-05-15 16:07:50 · 1565 阅读 · 0 评论