爬虫基础_陈胜_爬虫cn-CSDN博客

本文链接：https://blog.csdn.net/CNSNG/article/details/123467436

本文介绍了Python爬虫的三种基本方法，包括使用urllib2模块的GET请求、设置User-Agent以及处理Cookie。此外，还展示了如何在爬虫中添加data和header进行POST请求，以及如何处理和存储Cookie。内容涵盖了基础的网络请求技巧，适合爬虫初学者。

摘要由CSDN通过智能技术生成

1：爬虫入门程序
import cookielib
import urllib2

url="http://www.baidu.com"
response1=urlib2.urlopen(url)print"第一种方法”
print "第一种方法"
#获取状态码，200表示成功
print responselgetcode()
#获取网页内容的长度
print len(response1read())

print "第二种方法"
request = urllib2.Request(url)
#模拟Mozilla浏览器进行爬虫
request.add_header("user-agent","Mozilla/5.0")
response2 = urllib2.urlopen(request)
print response2.getcode()
print len(response2.read())

print "第三种方法"
cookie = cookielib.CookieJar()
#加入urllib2处理cookie的能力
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
urllib2.install_opener(opener)
response3 = urllib2.urlopen(url)
print response3.getcode()
print len(response3.read())
print cookie

2：爬虫程序添加data、header，然后post请求

import urllib
import urllib2

values = {}
values['username'] = "XXXXXXXXXX@qq.com"
values['password'] = "XXXX"
data = urllib.urlencode(values)
url = "http://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"
request = urllib2.Request(url,data)
response = urllib2.urlopen(request)
print response.read()

3：爬虫程序添加cookie

import urllib2
import cookielib
#声明一个CookieJar对象实例来保存cookie
cookie = cookielib.CookieJar()
#利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器
handler=urllib2.HTTPCookieProcessor(cookie)
#通过handler来构建opener
opener = urllib2.build_opener(handler)
#此处的open方法同urllib2的urlopen方法，也可以传入request
response = opener.open('http://www.baidu.com')
for item in cookie:
print 'Name = '+item.name
print 'Value = '+item.value

4.正则表达式

图：