Python
记录python学习历程
AhriLove
我一路向北,离开有你的季节
展开
-
使用Fiddle出现同时监听夜神模拟器和本地电脑的问题
1. 问题描述我们常常使用Fiddle或者Charles来对APP进行抓包处理,移动端使用夜深模拟器来替代,第一步就是Fiddle或Charles对夜深模拟器的配置。由于之前按照网上一篇教程来配置Fiddle,出现了Fiddle虽然可以监听夜深模拟器的请求了,但是也出现了同时监听本地电脑的情况,这样就很杂乱,看起来数据一大片,根本不容易分清是移动端还是PC端发出的请求。2.Fiddle与Charles配置Fiddle配置推荐文章:https://blog.csdn.net/weixin_3041199原创 2020-07-12 18:18:22 · 564 阅读 · 0 评论 -
哔哩哔哩弹幕爬取以及BV与AV号之间的转换
作为b站老粉丝,我有义务向新人科普bilibili的发展与纪年史,本人持中立态度,仅做记录工作。B站的API端口都是开放的,用一个很简单的调用命令就可以计算出BV号对应的AV号。B站的源码已经在GitHub上流出,部分机制甚至还没有经过修改。尊敬的各位用户:一直以来,AV 号都是 B 站视频稿件的重要标识,在视频的传播和分享中起到了关键作用。为了保护稿件信息安全,容纳更多投稿,维护 UP 主的权益,自 2020 年 3 月 23 日起,AV 号将全面升级为 BV 号。与纯数字的 AV 号不同,B原创 2020-05-19 09:23:14 · 3889 阅读 · 0 评论 -
js逆向爬虫:某中国天气网
1.抓取数据包目标网站:某zhongGuo天气网 js逆向流程:输入错误账号密码,找到真正的数据接口-->多个网页对比,找到那些字段是加密的-->全局搜索相关加密字段-->找到相关加密字段的js代码-->扣除js代码,进行调试2.相关加密字段从上图我们可以看到username不变,password进行了加密,全局搜索...原创 2020-01-13 17:11:18 · 471 阅读 · 0 评论 -
GNE v0.1 正式发布: 4 行代码开发新闻网站通用爬虫
GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。转载 2020-01-12 16:05:11 · 323 阅读 · 0 评论 -
python常见库函数:time模块,DBUtils管理数据库连接池 ,ftplib模块,os模块,datetime模块,tqdm模块,控制台带颜色输出
Python是一个“优雅”、“明确”、“简单”的编程语言,主要流行于网络爬虫、数据分析挖掘、机器学习、人工智能以及运维等等原创 2020-01-12 13:26:24 · 232 阅读 · 0 评论 -
python爬虫解析库:正则表达式,pyquery,selenium,xpath等等
1.正则表达式'.' 默认匹配除\n之外的任意一个字符,若指定flag DOTALL,则匹配任意字符,包括换行'^' 匹配字符开头,若指定flags MULTILINE,这种也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE)'$' 匹配字符结尾, 若指定flags MULTILINE ,re.search('foo.$','fo...原创 2020-01-11 17:20:32 · 1195 阅读 · 1 评论 -
js逆向爬虫某openLaw网站
常规步骤进行抓包获取js代码:输入错误的账号密码,找到post/get请求地址--->看请求表单数据是否加密--->全局搜索加密关键字--->找到与之相关联的js加密函数,扣出js代码原创 2020-01-11 17:15:22 · 734 阅读 · 2 评论 -
python爬虫的headers加单双引号处理
在写python爬虫脚本时,常常需要处理请求头headers,将其转换为字典格式,如果一个个的加单双引号,往往很费劲,所以我们可以借用正则表达式,直接将其替换掉。原创 2020-01-07 11:27:04 · 1772 阅读 · 0 评论