爬虫
文章平均质量分 69
天黑不算黑
这个作者很懒,什么都没留下…
展开
-
【Python爬虫】Linux下selenium设置启动参数过掉检测/抹掉特征
写在前面 因为知乎的登录有滑块,所以是用selenium登录拿cookie(需要过掉检测,下面会讲),然后放到cookie池,Windows下是没有什么问题,但是最后还是要放到服务器上去执行的。这就涉及到linux上的谷歌游览器安装以及配置 过掉各种网站对selenium的检测,在启动的时候附加启动参数,给它一个端口,例如windows下的相应操作windows下先cd到chrome的安装目录,然后输入如下命令:C:\Program Files\Googl...原创 2021-10-05 15:15:18 · 596 阅读 · 0 评论 -
【Error】Request.url is not modifiable, use Request.replace() instead
遇到在一个scrapy_redis的项目中,需要对url进行过滤去重,于是自定义了一个去重类简单暴力的直接照搬源码,然后重写request_seen,改变逻辑,原先是直接赋值会报标题的这个错 def request_seen(self, request): temp_request = request if "ref" in temp_request.url: # 这里报错,不能直接赋值 temp_request原创 2021-09-30 21:18:34 · 534 阅读 · 0 评论 -
【Python爬虫】之西瓜视频地址解密20210822
目录前言 代码前言最近找工作需要看一些面试看,无意间看到有个题说是要获取一个链接里面的视频地址。链接:https://www.ixigua.com/i6704446868685849092兴趣来了,抵挡不住这股冲动,点进去链接一看,= =!居然是小猪佩奇!!罢了,小猪佩奇就小猪佩奇吧,整就完事了。先右键检查元素看一眼http://v9-xg-web-s.ixigua.com/1b92afae1bebac684f789947b67997f7/612222...原创 2021-08-22 19:03:11 · 5223 阅读 · 1 评论 -
【Python爬虫】tensorflow + muggle_ocr最快的安装教程
1、安装Python首先是得有python环境,这里可以自行安装python 3.8或者3.9 ,安装的时候要记得配置环境变量 https://www.python.org/downloads/2、安装pycharmpycharm也不用多说,直接到官网安装社区办就ok3、Anaconda下载与安装当以上都完事的时候,就可以安装Anaconda了,Anaconda下载网址:https://www.anaconda.com/distribution/,根据自己的系统,以及系统的位数,选...原创 2021-08-12 22:26:55 · 2172 阅读 · 0 评论 -
【Python爬虫】之百度翻译sgin解密
Fiddler配合谷歌游览器抓取数据首先发现百度翻译是先对输入的词进行查询语言类别,通过这个地址https://fanyi.baidu.com/langdetect其次还发现了对提交的数据进行了url编码,输入的“我是超人”,查询返回的是"lan":"zh",到目前为止还没有发现有加密的地方,咱们继续往下看真正发送请求的链接谷歌游览器调试https://fanyi.baidu.com/v2transapi?from=zh&to=en 这个链接才是真正发送请求的链接。...原创 2021-07-26 23:17:50 · 578 阅读 · 2 评论