python网络爬虫初步

最新推荐文章于 2024-01-08 12:18:06 发布

ShomyLiu

最新推荐文章于 2024-01-08 12:18:06 发布

阅读量1.1k

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/shomy_liu/article/details/37655477

版权

python 专栏收录该内容

40 篇文章 1 订阅

订阅专栏

我们在用python 写爬取网页程序的时候，最常用的包就是 urllib，urllib ，cookie ，re

这几天一直在自学这方面的东西，主要是想爬取ＱＱ空间的日志，无奈。。还没成功；

虽然python在语法上很容易上手，但是真实写爬虫程序的时候，费了老大的力气，还是先小小的总结一下吧：

１，　最简单的

对于很多普通网页，获取源码直接一句话就可以：

#test.py
import urllib2
#url='********'
url='http://www.baidu.com'
page=urllib2.urlopen(url).read()
print page

２，反爬虫的

现在好多网站都反爬虫，比如说　csdn ,用上面的程序就不行了；这样我们可以采取伪装成一般浏览器的的方法来爬取；

修改一下headers ，【header是一个字典映射】这个headers可以通过第三方插件来获取，比如，火狐浏览器的httpfox ，在打开那个网站的前，运行插件，之后再打开的过程中

会发现数据包的流动啊，headers，cookies各种信息；设计好自己的headers之后，就可以模仿浏览器登录了：可以这样：

import urllib2
url='http://blog.csdn.net/shomy_liu'
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0'
    }

req= urllib2.Request(url=url,headers=headers)

page= urllib2.urlopen(req).read()
print page

后面还有对于某些需要填表单登陆的后续好好学习一下：