Python

最新推荐文章于 2025-10-29 22:19:42 发布

原创最新推荐文章于 2025-10-29 22:19:42 发布 · 1.9k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python

爬虫入门：

爬虫框架：分别是调度器、URL管理器、网页下载器、网页解析器、应用程序。

import urllib2
 
response = urllib2.urlopen("http://www.baidu.com")
print response.read()

爬虫添加：

import urllib  
import urllib2  
 
url = 'http://www.server.com/login'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'  
values = {'username' : 'zhongjinlin',  'password' : 'love' }  
headers = { 'User-lin' : user_lin }  
data = urllib.urlencode(values)  
request = urllib2.Request(url, data, headers)  
response = urllib2.urlopen(request)  
page = response.read()

post请求

import urllib
import urllib2
 
values = {"username":"2465428444@qq.com","password":"love"}
data = urllib.urlencode(values) 
url = "https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"
request = urllib2.Request(url,data)
response = urllib2.urlopen(request)
print response.read()

添加cookie

import cookielib
import urllib2
 
#创建MozillaCookieJar实例对象
cookie = cookielib.MozillaCookieJar()
#从文件中读取cookie内容到变量
cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)
#创建请求的request
req = urllib2.Request("http://www.loveyou.com")
#利用urllib2的build_opener方法创建一个opener
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
response = opener.open(req)
print response.read()