Python 3.x爬虫技巧总结

用python爬虫抓站的一些技巧总结这篇文章对Python爬虫技巧总结得很好,但是是基于python 2.x的,自己最近又刚转成了python 3.x,所以就将该博文转成基于python 3.x的。


1.最基本的抓站

[python]  view plain  copy
 print ? 在CODE上查看代码片 派生到我的代码片
  1. from urllib import request  
  2.   
  3. response = request.urlopen("http://www.baidu.com/")  
  4. content = response.read().decode('utf-8')  
  5. print(content)  



-
2.使用代理服务器
这在某些情况下比较有用,比如IP被封了,或者比如IP访问的次数受到限制等等。

[python]  view plain  copy
 print ? 在CODE上查看代码片 派生到我的代码片
  1. from urllib import request  
  2.   
  3. proxy_support = request.ProxyHandler({'http':'http://xx.xx.xx.xx:xx'})  
  4. opener = request.build_opener(proxy_support, request.HTTPHandler)  
  5. request.install_opener(opener)  
  6.   
  7. content = request.urlopen('http://www.baidu.com/').read().decode('utf-8')  
  8. print(content)  
如果不想一直使用该代理访问,那就不需要调用install_opener(opener)安装了,只需每次使用opener.open(),而不用request.urlopen()。


-
3.需要登录的情况
登录的情况比较麻烦我把问题拆分一下:
-
3.1 cookie的处理

[python]  view plain  copy
 print ? 在CODE上查看代码片 派生到我的代码片
  1. #-*- coding: utf-8 -*-  
  2.   
  3. from urllib import request  
  4. from http import cookiejar  
  5.   
  6. cookie_support = request.HTTPCookieProcessor(cookiejar.CookieJar())  
  7. opener = request.build_opener(cookie_support, request.HTTPHandler)  
  8. request.install_opener(opener)  
  9.   
  10. content = request.urlopen('http://www.baidu.com/').read().decode('utf-8')  
  11. print(content)  


是的没错,如果想同时用代理和cookie,那就加入proxy_support然后operner改为

[python]  view plain  copy
 print ? 在CODE上查看代码片 派生到我的代码片
  1. opener = request.build_opener(proxy_support, cookie_support, request.HTTPHandler)  

-
3.2 表单的处理
登录必要填表,表单怎么填?首先利用工具截取所要填表的内容
比如我一般用firefox+httpfox插件来看看自己到底发送了些什么包
这个我就举个例子好了,以verycd为例,先找到自己发的POST请求,以及POST表单项:
post1
post2

可以看到verycd的话需要填username,password,continueURI,fk,login_submit这几项,其中fk是随机生成的(其实不太随机,看上去像是把epoch时间经过简单的编码生成的),需要从网页获取,也就是说得先访问一次网页,用正则表达式等工具截取返回数据中的fk项。continueURI顾名思义可以随便写,login_submit是固定的,这从源码可以看出。还有username,password那就很显然了。

好的,有了要填写的数据,我们就要生成postdata

[python]  view plain  copy
 print ? 在CODE上查看代码片 派生到我的代码片
  1. postdata = parse.urlencode({  
  2.     'username':'XXXXX',  
  3.     'password':'XXXXX',  
  4.     'continueURI':'http://www.verycd.com/',  
  5.     'fk':'fkasdfasdf',  
  6.     'login_submit':'登录',  
  7. })  


然后生成http请求,再发送请求:

[python]  view plain  copy
 print ? 在CODE上查看代码片 派生到我的代码片
  1. req = request.Request(  
  2.     url = 'http://secure.verycd.com/signin/*/http://www.verycd.com/',  
  3.     data = postdata  
  4. )  
  5. content = request.urlopen(req).read()  
  6.   
  7. print(content)  

如果是get请求,则如下:
[python]  view plain  copy
 print ? 在CODE上查看代码片 派生到我的代码片
  1. fullurl = 'http://xxxxxxxxxxxxxxx/index?%s' % data  
  2. req = request.Request(fullurl)  


3.3 伪装成浏览器访问
某些网站反感爬虫的到访,于是对爬虫一律拒绝请求
这时候我们需要伪装成浏览器,这可以通过修改http包中的header来实现
#…

[python]  view plain  copy
 print ? 在CODE上查看代码片 派生到我的代码片
  1. postdata = parse.urlencode({})  
  2. headers = {  
  3.     'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'  
  4. }  
  5. req = request.Request(  
  6.     url = 'http://secure.verycd.com/signin/*/http://www.verycd.com/',  
  7.     data = postdata,  
  8.     headers = headers  
  9. )  


3.4 反”反盗链”
某些站点有所谓的反盗链设置,其实说穿了很简单,就是检查你发送请求的header里面,referer站点是不是他自己,所以我们只需要像3.3一样,把headers的referer改成该网站即可,以黑幕著称地cnbeta为例:

[python]  view plain  copy
 print ? 在CODE上查看代码片 派生到我的代码片
  1. headers = {  
  2.     'Referer':'http://www.cnbeta.com/articles'  
  3. }  

headers是一个dict数据结构,你可以放入任何想要的header,来做一些伪装。


3.5 终极绝招
有时候即使做了3.1-3.4,访问还是会被据,那么没办法,老老实实把httpfox中看到的headers全都写上,那一般也就行了。
再不行,那就只能用终极绝招了,selenium直接控制浏览器来进行访问,只要浏览器可以做到的,那么它也可以做到。类似的还有pamie,watir,等等等等。



4.多线程并发抓取
单线程太慢的话,就需要多线程了,这里给个简单的线程池模板
这个程序只是简单地打印了1-10,但是可以看出是并发地。

[python]  view plain  copy
 print ? 在CODE上查看代码片 派生到我的代码片
  1. #-*- coding: utf-8 -*-  
  2.   
  3. from threading import Thread  
  4. from queue import Queue  
  5. from time import sleep  
  6. #q是任务队列  
  7. #NUM是并发线程总数  
  8. #JOBS是有多少任务  
  9. q = Queue()  
  10. NUM = 2  
  11. JOBS = 10  
  12. #具体的处理函数,负责处理单个任务  
  13. def do_somthing_using(arguments):  
  14.     print(arguments)  
  15.       
  16. #这个是工作进程,负责不断从队列取数据并处理  
  17. def working():  
  18.     while True:  
  19.         arguments = q.get()  
  20.         do_somthing_using(arguments)  
  21.         sleep(1)  
  22.         q.task_done()  
  23. #fork NUM个线程等待队列  
  24. for i in range(NUM):  
  25.     t = Thread(target=working)  
  26.     t.setDaemon(True)  
  27.     t.start()  
  28. #把JOBS排入队列  
  29. for i in range(JOBS):  
  30.     q.put(i)  
  31. #等待所有JOBS完成  
  32. q.join()  


5.验证码的处理
碰到验证码咋办?这里分两种情况处理:
-
1.google那种验证码,凉拌
-
2.简单的验证码:字符个数有限,只使用了简单的平移或旋转加噪音而没有扭曲的,这种还是有可能可以处理的,一般思路是旋转的转回来,噪音去掉,然后划分单个字符,划分好了以后再通过特征提取的方法(例如 PCA )降维并生成特征库,然后把验证码和特征库进行比较。这个比较复杂,一篇博文是说不完的,这里就不展开了,具体做法请弄本相关教科书好好研究一下。
-
3.事实上有些验证码还是很弱的,这里就不点名了,反正我通过2的方法提取过准确度非常高的验证码,所以2事实上是可行的。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值