python网络爬虫初步

我们在用python 写爬取网页程序的时候,最常用的包就是 urllib,urllib ,cookie ,re

这几天一直在自学这方面的东西,主要是想爬取QQ空间的日志,无奈。。还没成功;

虽然python在语法上很容易上手, 但是真实写爬虫程序的时候,费了老大的力气,还是先小小的总结一下吧:

1, 最简单的

对于很多普通网页,获取源码直接一句话就可以:

#test.py
import urllib2
#url='********'
url='http://www.baidu.com'
page=urllib2.urlopen(url).read()
print page

2,反爬虫的

现在好多网站都反爬虫,比如说 csdn ,用上面的程序就不行了;这样我们可以采取伪装成一般浏览器的的方法来爬取;

修改一下headers ,【header是一个字典映射】这个headers可以通过第三方插件来获取,比如,火狐浏览器的httpfox  , 在打开那个网站的前,运行插件,之后再打开的过程中

会发现数据包的流动啊,headers,cookies各种信息; 设计好自己的headers之后,就可以模仿浏览器登录了:可以这样:

import urllib2
url='http://blog.csdn.net/shomy_liu'
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0'
    }

req= urllib2.Request(url=url,headers=headers)

page= urllib2.urlopen(req).read()
print page
后面还有对于某些需要填表单登陆的后续好好学习一下:



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值