1.爬虫入门程序
首先我们调用的是 urllib2 库里面的 urlopen 方法,传入一个 URL,这个网址是百度首页,协议是 HTTP 协议,当然你也可以把 HTTP 换做 FTP,FILE,HTTPS 等等,只是代表了一种访问控制协议,
urlopen 一般接受三个参数,它的参数如下:urlopen(url, data, timeout) 第一个参数 url 即为 URL,
第二个参数 data 是访问 URL 时要传送的数据,
第三个 timeout 是设置超时时间。
第二三个参数是可以不传送的,data 默认为空 None,timeout 默认为 socket._GLOBAL_DEFAULT_TIMEOUT 第一个参数 URL 是必须要传送的,在这个例子里面我们传送了百度的 URL,执行 urlopen 方法之后,返回一个 response 对象,返回信息便保存在这里面。
2.爬虫程序添加data、header,然后post请求
#填写地址url
url = ‘http://www.server.com/login’
#设置Headers 的参数
user_agent = ‘Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)’
#设置data 参数是访问URL时要传送的数据
values = {‘username’ : ‘cqc’, ‘password’ : ‘XXXX’ }
#设置Headers 的属性
headers = { ‘User-Agent’ : user_agent }
#对data数据进行编码
data = urllib.urlencode(values)
#进行请求
request = urllib2.Request(url, data, headers)
#进行访问
response = urllib2.urlopen(request)
#返回获取到的网页内容
page = response.read()
3.爬虫程序添加cookie
cookielib 模块的主要作用是提供可存储 cookie 的对象,以便于与 urllib2 模块配合使用来访问 Internet 资源。Cookielib 模块非常强大,我们可以利用本模块的 CookieJar 类的对象来捕获 cookie 并在后续连接请求时重新发送,比如可以实现模拟登录功能。该模块主要的对象有 CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。 它们的关系:CookieJar —— 派生 ——>FileCookieJar —— 派生 ——->MozillaCookieJar 和 LWPCookieJar
1
import urllib
import urllib2
import cookielib
filename = ‘cookie.txt’
4.正则表达式
Python中re模块主要功能是通过正则表达式是用来匹配处理字符串的 。import re 导入该模块后,就可以使用该模块下的所有方法和属性。