python作为一门高级编程语言,它的定位是优雅、明确和简单。
我学用python差不多一年时间了,
用得最多的还是各类爬虫脚本,
写过抓代理本机验证的脚本、写过论坛中自动登录自动发贴的脚本
写过自动收邮件的脚本、写过简单的验证码识别的脚本。
这些脚本有一个共性,都是和web相关的,
总要用到获取链接的一些方法,故累积了不少爬虫抓站的经验,
在此总结一下,那么以后做东西也就不用重复劳动了。
如果你在学习Python的过程中遇见了很多疑问和难题,可以加-q-u-n 227 -435-450里面有软件视频资料免费领取
1、基本抓取网页
get方法
post方法
2.使用代理服务器
这在某些情况下比较有用,
比如IP被封了,或者比如IP访问的次数受到限制等等。
3.Cookies处理
是的没错,如果想同时用代理和cookie,
那就加入proxy_support然后operner改为 ,如下:
4.伪装成浏览器访问
某些网站反感爬虫的到访,于是对爬虫一律拒绝请求。
这时候我们需要伪装成浏览器,
这可以通过修改http包中的header来实现:
如果你在学习Python的过程中遇见了很多疑问和难题,可以加-q-u-n 227 -435-450里面有软件视频资料免费领取
5、页面解析
对于页面解析最强大的当然是正则表达式,
这个对于不同网站不同的使用者都不一样,就不用过多的说明。
其次就是解析库了,常用的有两个lxml和BeautifulSoup。
对于这两个库,我的评价是,
都是HTML/XML的处理库,Beautifulsoup纯python实现,效率低,
但是功能实用,比如能用通过结果搜索获得某个HTML节点的源码;
lxmlC语言编码,高效,支持Xpath。
6.验证码的处理
碰到验证码咋办?
这里分两种情况处理:
google那种验证码,没办法。
**简单的验证码:**字符个数有限,只使用了简单的平移或旋转加噪音而没有扭曲的,
这种还是有可能可以处理的,一般思路是旋转的转回来,噪音去掉,
然后划分单个字符,划分好了以后再通过特征提取的方法(例如PCA)降维并生成特征库,
然后把验证码和特征库进行比较。
这个比较复杂,这里就不展开了,
具体做法请弄本相关教科书好好研究一下。
7. gzip/deflate支持
现在的网页普遍支持gzip压缩,这往往可以解决大量传输时间,
以VeryCD的主页为例,未压缩版本247K,压缩了以后45K,为原来的1/5。
这就意味着抓取速度会快5倍。
然而python的urllib/urllib2默认都不支持压缩
要返回压缩格式,必须在request的header里面写明’accept-encoding’,
然后读取response后更要检查header查看是否有’content-encoding’一项来判断是否需要解码,很繁琐琐碎。
如何让urllib2自动支持gzip, defalte呢?
其实可以继承BaseHanlder类,
然后build_opener的方式来处理:
8、多线程并发抓取
单线程太慢的话,就需要多线程了,
这里给个简单的线程池模板 这个程序只是简单地打印了1-10,
但是可以看出是并发的。
虽然说Python的多线程很鸡肋
但是对于爬虫这种网络频繁型,
还是能一定程度提高效率的。
9. 总结
阅读Python编写的代码感觉像在阅读英语一样,这让使用者可以专注于解决问题而不是去搞明白语言本身。
Python虽然是基于C语言编写,但是摒弃了C中复杂的指针,使其变得简明易学。
并且作为开源软件,Python允许对代码进行阅读,拷贝甚至改进。
这些性能成就了Python的高效率,有“人生苦短,我用Python”之说,是一种十分精彩又强大的语言。
读者福利:知道你对Python感兴趣,便准备了这套python学习资料
对于0基础小白入门:
如果你是零基础小白,想快速入门Python是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以找到适合自己的学习方案
包括:Python激活码+安装包、Python web开发,Python爬虫,Python数据分析,人工智能、机器学习等习教程。带你从零基础系统性的学好Python!
零基础Python学习资源介绍
- ① Python所有方向的学习路线图,清楚各个方向要学什么东西
- ② 600多节Python课程视频,涵盖必备基础、爬虫和数据分析
- ③ 100多个Python实战案例,含50个超大型项目详解,学习不再是只会理论
- ④ 20款主流手游迫解 爬虫手游逆行迫解教程包
- ⑤ 爬虫与反爬虫攻防教程包,含15个大型网站迫解
- ⑥ 爬虫APP逆向实战教程包,含45项绝密技术详解
- ⑦ 超300本Python电子好书,从入门到高阶应有尽有
- ⑧ 华为出品独家Python漫画教程,手机也能学习
- ⑨ 历年互联网企业Python面试真题,复习时非常方便
👉Python学习路线汇总👈
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。(全套教程文末领取哈)
👉Python必备开发工具👈
温馨提示:篇幅有限,已打包文件夹,获取方式在:文末
👉Python学习视频600合集👈
观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
👉实战案例👈
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉100道Python练习题👈
检查学习结果。
👉面试刷题👈
👉python副业兼职与全职路线👈
上述这份完整版的Python全套学习资料已经上传CSDN官方,如果需要可以微信扫描下方CSDN官方认证二维码 即可领取
👉[[CSDN大礼包:《python安装包&全套学习资料》免费分享]](安全链接,放心点击)
![](https://img-blog.csdnimg.cn/img_convert/9b29d3e7f50a9ddae5e2a91246d25c6e.png)