python爬虫
文章平均质量分 95
小卒曹阿瞒
这个作者很懒,什么都没留下…
展开
-
如何下载y站视频
今天看到了一篇B站视频的下载方法,学习了下,然后去看了下y站是不是也能下下来,居然被我试出来了,嘿嘿B站文章链接:https://blog.csdn.net/Enderman_xiaohei/article/details/94718494然后看一下y站的,打开network这里看一下跟视频有关的链接,我总共发现2类,贴到下面https://r4---sn-ab5szn76....原创 2020-04-01 22:44:40 · 3668 阅读 · 0 评论 -
抓取微信小程序数据加密内容
最近又收到个任务,要去抓取别人小程序的内容,通过fiddler抓包,请求和响应数据看的我是一脸懵逼,自己造数据是不可能的,小程序看不到js,根本猜不到怎么解密和加密的。网上也有文章说小程序的源码可以通过反编译下载下来,我反正是没成功。那怎么办呢? 想到我们之前用的网页端的自动化测试工具selenium,就不难解决了。数据我解不出来就模拟呗。移动端自动化测试工具选取 Appium 和 网易的a...原创 2020-03-16 18:11:52 · 5924 阅读 · 0 评论 -
命令行工具
Configuration settingsScrapy将在标准位置的ini样式文件scrapy.cfg中查找配置参数:/etc/scrapy.cfg或c:\scrapy\scrapy.cfg(系统范围),~/.config/scrapy.cfg($XDG_CONFIG_HOME)和~/.scrapy.cfg($HOME)用于全局(用户范围)设置scrapy.cfg 在一个项目原创 2017-08-05 20:43:10 · 231 阅读 · 0 评论 -
我们的第一只蜘蛛(Scrapy)
Our first Spider爬虫是用来爬取网站(或一组网站)上的信息。他们必须子类化scrapy.Spider并定义初始请求,可以选择怎样跟踪页面中的链接,以及如何解析下载的页面获取你想要的的数据。这是我们第一个爬虫代码。保存在一个名字为quotes_spider.py的文件里,放在你的项目中tutorial/spiders文件夹下import scrapyclass Quo原创 2017-08-05 11:08:43 · 544 阅读 · 0 评论 -
Python爬虫四种验证码的解决思路
1.输入式验证码这种验证码主要是通过用户输入图片中的字母、数字、汉字等进行验证。如下图图1 图2解决思路:这种是最简单的一种,只要识别出里面的内容,然后填入到输入框中即可。这种识别技术叫OCR,这里我们推荐使用Python的第三方库,tesserocr。对于没有什么背影影响的验证码如图2,直接通过这个库来识别就可以。...原创 2018-06-07 10:17:13 · 89698 阅读 · 16 评论