爬虫基础_陈胜

本文介绍了Python爬虫的三种基本方法,包括使用urllib2模块的GET请求、设置User-Agent以及处理Cookie。此外,还展示了如何在爬虫中添加data和header进行POST请求,以及如何处理和存储Cookie。内容涵盖了基础的网络请求技巧,适合爬虫初学者。
摘要由CSDN通过智能技术生成

1:爬虫入门程序
import cookielib
import urllib2

url="http://www.baidu.com"
response1=urlib2.urlopen(url)print"第一种方法”
print "第一种方法"
#获取状态码,200表示成功
print responselgetcode()
#获取网页内容的长度
print len(response1read())

print "第二种方法"
request = urllib2.Request(url)
#模拟Mozilla浏览器进行爬虫
request.add_header("user-agent","Mozilla/5.0")
response2 = urllib2.urlopen(request)
print response2.getcode()
print len(response2.read())

print "第三种方法"
cookie = cookielib.CookieJar()
#加入urllib2处理cookie的能力
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
urllib2.install_opener(opener)
response3 = urllib2.urlopen(url)
print response3.getcode()
print len(response3.read())
print cookie

2:爬虫程序添加data、header,然后post请求

import urllib
import urllib2

values = {}
values['username'] = "XXXXXXXXXX@qq.com"
values['password'] = "XXXX"
data = urllib.urlencode(values)
url =  "http://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"
request = urllib2.Request(url,data)
response = urllib2.urlopen(request)
print response.read()

3:爬虫程序添加cookie

import urllib2
import cookielib
#声明一个CookieJar对象实例来保存cookie
cookie = cookielib.CookieJar()
#利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器
handler=urllib2.HTTPCookieProcessor(cookie)
#通过handler来构建opener
opener = urllib2.build_opener(handler)
#此处的open方法同urllib2的urlopen方法,也可以传入request
response = opener.open('http://www.baidu.com')
for item in cookie:
    print 'Name = '+item.name
    print 'Value = '+item.value

4.正则表达式

图:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值