![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
小丫小屁孩
这个作者很懒,什么都没留下…
展开
-
scrapy Missing scheme in request url
今天在写爬虫的时候出现这个问题,报错为:Traceback (most recent call last): File "E:\anaconda\Anaconda3\lib\site-packages\twisted\internet\defer.py", line 654, in _runCallbacks current.result = callback(current.res...原创 2019-05-15 15:13:34 · 267 阅读 · 0 评论 -
\x75\x73\x65\x20\x73\x74\x72\x69\x63\x74解码
这是js代码加密的一种,其实就是用字节代替了字符。比如说"\x65",由于\x的存在(\x代表这是一个16进制,而一位十六进制代表了四位二进制,所以这里两位十六进制代表了8位二进制,也就是说这代表一个字节),它会被认为是一个十六进制数代表的字符,用utf8解码时代表字符e,解码的过程是,把65从十六进制转为十进制,然后的到一个0-128的数,然后这个数对应英文字符中的一个字符(在utf8中英文字...原创 2019-09-02 22:23:34 · 21157 阅读 · 0 评论 -
爬取携程景点评论门票的接口(只是讲怎么找接口)
费话不多少,主要是靠接口爬取,那么怎么获得接口就是一个问题了。开始的页面是这样的:输入杭州后,然后打开fiddler开始抓包,注意这是最大的错误,就是这个错误导致了我一直找不到接口,这样点击搜索后是找不到返回数据的接口的,因为在你杭州输入搜索框后即使没有点击搜索按钮,这个时候已经返回了数据。所以在你输入杭州之前就应该打开了fiddler。ok,正确的接口如下(8.1测试时的接口):点击w...原创 2019-08-01 15:08:32 · 1866 阅读 · 4 评论 -
Scrapy下载中间件Download Middleware
本文主要讲每个中间件的方法的处理过程process_request 专门处理requestprocess_response 专门处理responseprocess_exception 专门处理exception,这个exception可以是process_request process_response 抛出的错误,也可以是下载器抛出的错误中间件的处理就相当于一个流程线中间件一 -...原创 2019-07-06 10:49:38 · 530 阅读 · 0 评论 -
模拟新浪微博登录获取Cookie,使用selenium,保存验证码再识别
最先是想模拟请求然后得到cookies,但最后发现验证码这一步绕不过,因为关键跳转需要一个door参数,这个door参数就是验证码,网上博客也在这一部分断片了。然后只能是保存验证码,然后使用打码平台来识别。保存验证码的时候又发现验证码的url每次请求都会不同,只能自己截图来解决,利用selenium自带的截屏函数,截屏后,自己手动找到验证码的坐标,然后进行截图,只要找一次坐标就行了,剩下的都根...原创 2019-07-11 10:53:21 · 843 阅读 · 0 评论 -
搜狗微信文章url解码
最近看教程爬取搜狗微信文章,前边工作做好爬取ok,到了抓取每个文章的url时候出现了问题这一串并不是文章真正的url,直接点的会弹出输入验证码,ok,去百度,吸取各个大佬的经验,得知了这只是一个未处理的url,处理过后才能得到真正的url。具体过程(吸取前人经验总结的,百度真是个好东西):首先这个url不是真正的url,在网页中点击标题后,会触发一个事件,这个事件会为我们在网页源代码中看到...原创 2019-06-30 15:38:32 · 3279 阅读 · 4 评论 -
爬虫521应对
要做一个动态ip池,结果爬ip地址的时候遇到一个网站返回521百度后根据前人的经验得知这种网站是有两次请求,第一次请求返回一个cookie(这时候状态是521),然后第二次请求带着这个cookie请求就会又得到一个cookie,这个cookie可以用第一次请求返回的js代码获得,用这两个cookie同时请求才能获得正确的response。而且两次请求的User-Agent一定要一样所以要设置he...原创 2019-06-28 14:49:53 · 896 阅读 · 0 评论 -
如何查找对参数加密的js代码
遇到请求有加密参数一般是去百度,但是从没有人说怎么找到的,都是直接说哪一个是加密函数。于是向看看别人怎么找js代码的,一般是在网页中F12后按Ctrl+Shift+F全局搜索加密参数的名字,但是有些js代码是加密的直接搜参数是搜不到的,最常见的就是这种:????我要搜索一个_sn,但是全局搜索搜索一下神么都没有,原因是_sn被加密了,直接搜搜不到,那么换成这种加密方式使用unicode码代替...原创 2019-09-03 15:57:33 · 2738 阅读 · 0 评论