爬虫
文章平均质量分 88
小小明-代码实体
高阶数据处理玩家带你高端姿势玩数据!!!关注我发现更多精彩~
展开
-
seleniumwire获取百度指数
最新最简单的百度指数自动获取方案~原创 2022-07-28 18:33:53 · 37132 阅读 · 34 评论 -
selenium对接代理与seleniumwire访问开发者工具NetWork
这样只有我们就通过MitmProxy代理服务器获取所有经过selenium控制的游览器访问的数据,这样我们同时还实现自动化控制和数据获取之间的解耦,mitmdump加载的脚本专门复杂拦截数据并处理,selenium代码专门负责自动化控制。缓存了游览器在访问过程获取的所有数据,就好像游览器开发者工具的Network,reversed(browser.requests)的目的是倒着查看数据,即优先查看最新获取的数据。的作用是清理缓存,目的是在下一次点击访问前先清理历史缓存,从而使数据获取的速度变得更快。...原创 2022-07-26 21:53:40 · 35280 阅读 · 20 评论 -
sojson本地反调试原理解析
sojson的无限debug和防代码格式化,死代码注入等技术真牛,我们看看咋实现的。原创 2022-07-07 22:39:09 · 36103 阅读 · 14 评论 -
提取谷歌游览器Cookie的五重境界
经常玩爬虫的童鞋都知道cookie的重要性,目前为止大部分网站都仍然使用cookie标识登录状态,只有少部分网站升级到使用jwt记录登录状态。提取cookie作用不言而喻,那么提取cookie有哪些高端的操作呢?请观看:文章目录纯手动提取谷歌游览器cookieselenium手动登录并获取cookieselenium无头模式获取非登录cookie获取本地谷歌游览器中的cookie解析存储谷歌游览器cookie数据的文件并提取纯手动提取谷歌游览器cookie这应该是任何玩过爬虫的童鞋都会的方案,也可能原创 2022-01-23 19:48:43 · 34726 阅读 · 98 评论 -
如何用Python下载百度指数的数据
大家好我是小小明,今天给大家演示如何使用python直接采集百度指数的数据。百度指数(Baidu Index) 是以百度海量网民行为数据为基础的数据分析平台,它能够能够告诉用户:某个关键词在百度的搜索规模有多大,一段时间内的涨跌态势以及相关的新闻舆论变化,关注这些词的网民是什么样的,分布在哪里,同时还搜了哪些相关的词。百分十先生分享过如何使用uiautomation采集百度指数:百度指数 如何批量获取?不过个人感觉这方法好像有点杀鸡用牛刀,对于网页使用selenium完全足以,当然对于专门针对sele原创 2021-11-23 11:52:18 · 49539 阅读 · 154 评论 -
5分钟教会你用Python采集CSDN的热榜
上次发了一篇《热榜标题词云实时更新词云上线,给标题起名提供参观建议》,今天突然上热榜一一段时间,还被范博at了。虽然对上热榜本身已经无感,但是被范博at还非常让我高兴的。这到晚上后,有人在评论区问到热榜数据怎么爬。热心的我,现在就花几分钟时间教会大家。首先,打开热榜页面并打开开发者工具,监控xhr类型的请求:然后复制为curl(bash)类型的请求:然后我们在jupyte中执行:!curl2py注意:该命令需要安装filestools安装命令:pip install filest原创 2021-10-24 18:38:53 · 39404 阅读 · 166 评论 -
☀️SVG映射反爬示例练习⚡直接提取SVG文字图片的文本⚡
前面我已经介绍过解析CSS图片偏移反爬和字体反爬的数据,链接如下:Python提取CSS图片背景偏移定位的数据:https://blog.csdn.net/as604049322/article/details/1184015982万字硬核剖析网页自定义字体解析:https://blog.csdn.net/as604049322/article/details/119333427woff字体图元结构剖析,自定义字体的制作与匹配和识别:https://blog.csdn.net/as604049322原创 2021-09-06 23:45:50 · 52951 阅读 · 124 评论 -
2万字硬核剖析网页自定义字体解析(css样式表解析、字体点阵图绘制与本地图像识别等)
大家好,我的小小明。前面我在《Python处理超强反爬(TSec防火墙+CSS图片背景偏移定位)》一文中讲解如何解析css图片背景偏移的数据,并通过图像识别提取文字。本文将带你解析各种形式自定义字体,绘制点阵图,并通过图像识别提取出关系列表,最终校对后构建正确的对应关系,最终获取到正确的数据。看到本文,相信以后你对任何形式额字体反爬都能见招拆招。文章目录深度剖析自定义字体解析自定义字体的介绍Python加载页面解析顶部导航栏分类和地点列表解析字体对应css的下载URL解析css获取自定义字体的URL原创 2021-08-02 20:43:50 · 36169 阅读 · 73 评论 -
Pandas一键爬取解析代理IP与代理IP池的维护
本文的目标是至少演示如下技术:1. pandas超简代码带请求头解析表格2. 查看访问IP的方法3. 搭建简易检验代理Ip的网站4. Redis数据库的基本操作5. 代理ip在request库中的使用方法6. Timer定时器的使用7. Redis 图形化工具的使用介绍...原创 2021-07-04 00:18:03 · 54087 阅读 · 86 评论 -
Python处理超强反爬(TSec防火墙+CSS图片背景偏移定位)
大家好,我是小小明,今天看到一个网站:太神奇了,对于每个数字都用css背景图片裁切得到一张小图进行显示。可以确定的是每个数字的图片大小是8*17。今天我们就一起玩玩。开始测试先尝试用request读取数据,结果获得一大堆极度混淆的JS的代码。然后尝试用selenium访问,结果:感觉这个防火墙有点叼。算了,使用大杀器来隐藏模拟浏览器的特征:from selenium.webdriver import ChromeOptionsfrom selenium import webdriver原创 2021-07-02 00:39:30 · 31258 阅读 · 61 评论 -
AES加密解密的基本原理与Python爬取AES加密接口
大家好,我是小小明,今天我要带大家学习AES加密的基本原理,并爬取一个经过AES加密的接口。一起来学习吧!AES编码解码基础AES简介AES(Advanced Encryption Standard)是取代其前任标准(DES)而成为新标准的一种对称加密算法。DES因为应用时间较早,密文已经可以在短时间内被破译,所以现在已经基本不再使用。被选定为AES的Rijndael算法全世界的企业和密码学家提交了多个对称密码算法作为AES的候选,最终在2000年从这些候选算法中选出了一种名为 Rijndael原创 2021-06-30 15:10:23 · 31603 阅读 · 52 评论 -
Python下载M3U8加密视频示例
大家好,我是小小明。最近看到几个视频网站的地址依然是m3u8格式,不禁有了使用python进行下载的想法,虽然下载m3u8格式视频的工具很多,但如果我们自行编码就能应对更多的情况。关于m3u8的基础知识可以参考:Python实时下载B站直播间视频(M3U8视频流)下面我们将使用Python下载m3u8格式的加密离线视频流。游览器抓包过滤能够获取该影片的m3u8播放地址:首先,测试一下该地址:import m3u8headers = { "User-Agent": "Mozilla/原创 2021-06-30 00:27:31 · 34494 阅读 · 60 评论 -
Python实时下载B站直播间视频(M3U8视频流)
大家好,我是小小明。今天我将带大家一步步来研究如何下载B站直播视频。获取直播间下载地址首先获取指定分区直播间id列表:import requestsfrom lxml import etreedef get_room_ids(room_type="学习"): urls = {"学习": "https://live.bilibili.com/p/eden/area-tags?visit_id=9ynmsmaiie80&areaId=377&parentAreaId=11原创 2021-06-28 22:50:57 · 39833 阅读 · 59 评论 -
在Jupyter上不仅看直播视频还玩CSS动画,就是这么炫酷
大家好,我是小小明,今天我要实现一个比较奇葩的需求,那就是直接在Jupyter上看B站直播。做到学习、学习(娱乐)两不误。咱们最终要达到的效果:获取指定分区直播间id列表这次我们看直播的区域是:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5J1gmUSU-1624862277894)(http://qiniuimg.xiaoxiaoming.xyz/imgs/image-20210628134450600.png?imageslim)]然后我们该分区的直播间id原创 2021-06-28 14:40:34 · 29977 阅读 · 99 评论 -
JavaScript的加密混淆技术
本文是对崔庆才在拉勾教育某节课程的记录,地址:https://kaiwu.lagou.com/course/courseInfo.htm?courseId=46#/detail/pc?id=1688JavaScript 压缩、混淆、加密简述:代码压缩:即去除 JavaScript 代码中的不必要的空格、换行等内容,使源码都压缩为几行内容,降低代码可读性,当然同时也能提高网站的加载速度。代码混淆:使用变量替换、字符串阵列化、控制流平坦化、多态变异、僵尸函数、调试保护等手段,使代码变得难以阅读和分析,原创 2021-02-27 08:37:39 · 45052 阅读 · 60 评论 -
Selenium 的安装和基本使用
Selenium 的安装Selenium 是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作。对于一些 JavaScript 渲染的页面来说,这种抓取方式非常有效。下面我们来看看 Selenium 的安装过程。相关链接:官方网站:http://www.seleniumhq.orgGitHub:https://github.com/SeleniumHQ/selenium/tree/master/pyPyPI:https://pypi.python.org/pypi/s原创 2021-02-27 07:21:14 · 83964 阅读 · 58 评论 -
单线程、多线程和协程的爬虫性能对比
作者:小小明非常擅长解决各类复杂数据处理的逻辑,各类结构化与非结构化数据互转,字符串解析匹配等等。至今已经帮助百名以上数据从业者解决工作中的实际问题,如果你在数据处理上遇到什么困难,欢迎与我交流。豆瓣深圳影讯爬虫文章目录豆瓣深圳影讯爬虫爬取测试单线程爬虫多线程爬虫协程异步爬虫回顾各位读者们大家好,我是小小明。今天我要给大家分享的是如何爬取豆瓣上深圳近期即将上映的电影影讯,并分别用普通的单线程、多线程和协程来爬取,从而对比单线程、多线程和协程在网络爬虫中的性能。具体要爬的网址是:https:/.原创 2021-01-21 11:57:52 · 71426 阅读 · 32 评论 -
[爬虫]字节跳动招聘爬取实战-csrf校验
作者:小小明Pandas数据处理专家,帮助一万用户解决数据处理难题。今天我们打算爬取一下字节跳动的招聘信息:我们打开开发者工具并访问:https://jobs.bytedance.com/experienced/position?keywords=&category=&location=&project=&type=&job_hot_flag=¤t=1&limit=10这次访问监控到的数据很多,其中这个posts接口才有我们.原创 2021-01-07 14:56:19 · 75964 阅读 · 8 评论