python爬虫入门笔记

最新推荐文章于 2022-05-09 12:03:42 发布

quantumsec

最新推荐文章于 2022-05-09 12:03:42 发布

阅读量562

点赞数

分类专栏：网络爬虫

网络爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

      Python爬虫入门

概念：网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。
爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它咯。
Python爬虫入门之Urllib库的基本使用
爬网页源码：
import urllib2
response = urllib2.urlopen(“http://news.baidu.com/“)
print response.read()

urllib2库里面的urlopen方法，传入一个URL

response对象有一个read方法，可以返回获取到的网页内容

效果同上：构造了request
import urllib2
request = urllib2.Request(“http://www.baidu.com“)
response = urllib2.urlopen(request)
print response.read()
上面是网页的抓取，对于动态网页我们需要动态的传递参数（如登录注册时）
数据传送分为POST和GET两种方式，两种方式有什么区别呢？
最重要的区别是GET方式是直接以链接形式访问，链接中包含了所有的参数，当然如果包含了密码的话是一种不安全的选择，不过你可以直观地看到自己提交了什么内容。POST则不会在网址上显示所有的参数
POST方式：
import urllib
import urllib2

values = {“username”:”**@qq.com”,”password”:”XXXX”} #字典 values
data = urllib.urlencode(values) #
url = “https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn”
request = urllib2.Request(url,data)
response = urllib2.urlopen(request)
print response.read()

GET方式：
至于GET方式我们可以直接把参数写到网址上面，直接构建一个带参数的URL出来即可。
import urllib
import urllib2

values = {“username”:”**@qq.com”,”password”:”XXXX”} #字典 values
data = urllib.urlencode(values)
url = “http://passport.csdn.net/account/login”
geturl = url + “?”+data
request = urllib2.Request(geturl)
response = urllib2.urlopen(request)
print response.read()

Python爬虫入门之Urllib库的高级用法
1、设置Headers
import urllib
import urllib2
url = ‘http://www.server.com/login’
user_agent = ‘Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)’
values = {‘username’ : ‘cqc’, ‘password’ : ‘XXXX’ }
headers = { ‘User-Agent’ : user_agent }
data = urllib.urlencode(values)
request = urllib2.Request(url, data, headers)
response = urllib2.urlopen(request)
page = response.read()
设置了一个headers，在构建request时传入，在请求时，就加入了headers传送，服务器若识别了是浏览器发来的请求，就会得到响应。

另外，我们还有对付”反盗链”的方式，对付防盗链，服务器会识别headers中的referer是不是它自己，如果不是，有的服务器不会响应，所以我们还可以在headers中加入referer
headers = { ‘User-Agent’ : ‘Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)’ ,
‘Referer’:’http://www.zhihu.com/articles’ }

Headers属性
User-Agent : 有些服务器或 Proxy 会通过该值来判断是否是浏览器发出的请求
Content-Type : 在使用 REST 接口时，服务器会检查该值，用来确定 HTTP Body 中的内容该怎样解析。
application/xml ：在 XML RPC，如 RESTful/SOAP 调用时使用
application/json ：在 JSON RPC 调用时使用
application/x-www-form-urlencoded ：浏览器提交 Web 表单时使用
在使用服务器提供的 RESTful 或 SOAP 服务时， Content-Type 设置错误会导致服务器拒绝服务
2、Proxy的设置
urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。假如一个网站它会检测某一段时间某个IP 的访问次数，如果访问次数过多，它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作，每隔一段时间换一个代理。
import urllib2
enable_proxy = True
proxy_handler = urllib2.ProxyHandler({“http” : ‘http://some-proxy.com:8080‘})
null_proxy_handler = urllib2.ProxyHandler({})
if enable_proxy:
opener = urllib2.build_opener(proxy_handler)
else:
opener = urllib2.build_opener(null_proxy_handler)
urllib2.install_opener(opener)

3、Timeout设置
import urllib2
response = urllib2.urlopen(‘http://www.baidu.com‘, timeout=10)

import urllib2
response = urllib2.urlopen(‘http://www.baidu.com‘,data, 10)

Python爬虫入门之URLError异常处理
1、Urlerror
产生urlerror可能的原因：网络未连接；连接不到特定的服务器；服务器不存在。在代码中，我们需要用try-except语句来包围并捕获相应的异常。
import urllib2
requset = urllib2.Request(‘http://www.xxxxx.com‘)
try:
urllib2.urlopen(request)
except urllib2.URLError, e:
print e.reason

我们利用了 urlopen方法访问了一个不存在的网址，运行结果如下：[Errno 11004] getaddrinfo failed 它说明了错误代号是11004，错误原因是 getaddrinfo failed

2、HTTPError
HTTPError实例产生后会有一个code属性，这就是是服务器发送的相关错误号。
因为urllib2可以为你处理重定向，也就是3开头的代号可以被处理，并且100-299范围的号码指示成功，所以你只能看到400-599的错误号码。
import urllib2

req = urllib2.Request(‘http://blog.csdn.net/cqcre‘)
try:
urllib2.urlopen(req)
except urllib2.HTTPError, e:
print e.code
print e.reason

HTTPError的父类是URLError，根据编程经验，父类的异常应当写到子类异常的后面，如果子类捕获不到，那么可以捕获父类的异常，所以上述的代码可以这么改写
import urllib2

req = urllib2.Request(‘http://blog.csdn.net/cqcre‘)
try:
urllib2.urlopen(req)
except urllib2.HTTPError, e:
print e.code
except urllib2.URLError, e:
print e.reason
else:
print “OK”

Python爬虫入门之Cookie的使用
为什么要使用Cookie呢？
Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）
比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie，然后再抓取其他页面就达到目的了。
1、Opener
当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。在前面，我们都是使用的默认的opener，也就是urlopen。它是一个特殊的opener，可以理解成opener的一个特殊实例，传入的参数仅仅是url，data，timeout。
如果我们需要用到Cookie，只用这个opener是不能达到目的的，所以我们需要创建更一般的opener来实现对Cookie的设置。
2、Cookielib
cookielib模块的主要作用是提供可存储cookie的对象，以便于与urllib2模块配合使用来访问Internet资源。Cookielib模块非常强大，我们可以利用本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送，比如可以实现模拟登录功能。该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。
它们的关系：CookieJar —-派生—->FileCookieJar —-派生—–>MozillaCookieJar和LWPCookieJar
1）获取cookie保存到变量
import urllib2
import cookielib

声明一个CookieJar对象实例来保存cookie

cookie = cookielib.CookieJar()

利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器

handler=urllib2.HTTPCookieProcessor(cookie)

通过handler来构建opener

opener = urllib2.build_opener(handler)

此处的open方法同urllib2的urlopen方法，也可以传入request

response = opener.open(‘http://www.baidu.com‘)
for item in cookie:
print ‘Name = ‘+item.name
print ‘Value = ‘+item.value

2）获取cookie保存到文件
FileCookieJar这个对象了，在这里我们使用它的子类MozillaCookieJar来实现Cookie的保存。

import cookielib
import urllib2

设置保存cookie的文件，同级目录下的cookie.txt

filename = ‘cookie.txt’

声明一个MozillaCookieJar对象实例来保存cookie，之后写入文件

cookie = cookielib.MozillaCookieJar(filename)

利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器

handler = urllib2.HTTPCookieProcessor(cookie)

通过handler来构建opener

opener = urllib2.build_opener(handler)

创建一个请求，原理同urllib2的urlopen

response = opener.open(“http://www.baidu.com“)

保存cookie到文件

cookie.save(ignore_discard=True, ignore_expires=True)

ignore_discard的意思是即使cookies将被丢弃也将它保存下来，ignore_expires的意思是如果在该文件中cookies已经存在，则覆盖原文件写入，在这里，我们将这两个全部设置为True。

3）从文件中获取cookie并访问
import cookielib
import urllib2

创建MozillaCookieJar实例对象

cookie = cookielib.MozillaCookieJar()

从文件中读取cookie内容到变量

cookie.load(‘cookie.txt’, ignore_discard=True, ignore_expires=True)

创建请求的request

req = urllib2.Request(“http://www.baidu.com“)

利用urllib2的build_opener方法创建一个opener

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
response = opener.open(req)
print response.read()

设想，如果我们的 cookie.txt 文件中保存的是某个人登录百度的cookie，那么我们提取出这个cookie文件内容，就可以用以上方法模拟这个人的账号登录百度。

4）利用cookie模拟网站登录
import urllib
import urllib2
import cookielib

filename = ‘cookie.txt’

声明一个MozillaCookieJar对象实例来保存cookie，之后写入文件

cookie = cookielib.MozillaCookieJar(filename)
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
postdata = urllib.urlencode({
‘stuid’:’201200131012’,
‘pwd’:’23342321’
})

登录教务系统的URL

loginUrl = ‘http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bks_login2.login’

模拟登录，并把cookie保存到变量

result = opener.open(loginUrl,postdata)

保存cookie到cookie.txt中

cookie.save(ignore_discard=True, ignore_expires=True)

利用cookie请求访问另一个网址，此网址是成绩查询网址

gradeUrl = ‘http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bkscjcx.curscopre’

请求访问成绩查询网址

result = opener.open(gradeUrl)
print result.read()
以上程序的原理如下
创建一个带有cookie的opener，在访问登录的URL时，将登录后的cookie保存下来，然后利用这个cookie来访问其他网址。
如登录之后才能查看的成绩查询呀，本学期课表呀等等网址，模拟登录就这么实现啦

Python爬虫入门之正则表达式
1、正则表达式概念
正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

正则表达式的大致匹配过程是：
1.依次拿出表达式和文本中的字符比较，
2.如果每一个字符都能匹配，则匹配成功；一旦有匹配不成功的字符则匹配失败。
3.如果表达式中有量词或边界，这个过程会稍微有一些不同。

2、正则表达式的语法规则如下图：

3、正则表达式相关注解：
（1）数量词的贪婪模式与非贪婪模式
正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是贪婪的（在少数语言里也可能是默认非贪婪），总是尝试匹配尽可能多的字符；非贪婪的则相反，总是尝试匹配尽可能少的字符。例如：正则表达式”ab*”如果用于查找”abbbc”，将找到”abbb”。而如果使用非贪婪的数量词”ab*?”，将找到”a”。
注：我们一般使用非贪婪模式来提取。
（2）反斜杠问题
与大多数编程语言相同，正则表达式里使用”\”作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符”\”，那么使用编程语言表示的正则表达式里将需要4个反斜杠”\\”：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。
Python里的原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用r”\”表示。同样，匹配一个数字的”\d”可以写成r”\d”。有了原生字符串，妈妈也不用担心是不是漏写了反斜杠，写出来的表达式也更直观勒。
4、python Re 模块
Python 自带了re模块，它提供了对正则表达式的支持。主要用到的方法列举如下：

返回pattern对象

re.compile(string[,flag])

以下为匹配所用函数

re.match(pattern, string[, flags])
re.search(pattern, string[, flags])
re.split(pattern, string[, maxsplit])
re.findall(pattern, string[, flags])
re.finditer(pattern, string[, flags])
re.sub(pattern, repl, string[, count])
re.subn(pattern, repl, string[, count])

pattern = re.compile(r’hello’) #返回pattern对象
在参数中我们传入了原生字符串对象，通过compile方法编译生成一个pattern对象，然后我们利用这个对象来进行进一步的匹配。

参数flag是匹配模式，取值可以使用按位或运算符’|’表示同时生效，比如re.I | re.M。
可选值有：
• re.I(全拼：IGNORECASE): 忽略大小写（括号内是完整写法，下同）
• re.M(全拼：MULTILINE): 多行模式，改变’^’和’$’的行为（参见上图）
• re.S(全拼：DOTALL): 点任意匹配模式，改变’.’的行为
• re.L(全拼：LOCALE): 使预定字符类 \w \W \b \B \s \S 取决于当前区域设定
• re.U(全拼：UNICODE): 使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性
• re.X(全拼：VERBOSE): 详细模式。这个模式下正则表达式可以是多行，忽略空白字符，并可以加入注释。

（1）re.match(pattern, string[, flags])
当需要提取的内容只有一个，或是只需要获取第一次成功匹配的内容时，可以使用Match()方法。当使用Match()方法时，只要在某一位置匹配成功，就不再继续尝试匹配，并返回一个Match类型的对象。注意：Match只从位置0开始匹配，除非使用Pattern对象指定pos参数。

这个方法将会从string（我们要匹配的字符串）的开头开始，尝试匹配pattern，一直向后匹配，如果遇到无法匹配的字符，立即返回None，如果匹配未结束已经到达string的末尾，也会返回None。两个结果均表示匹配失败，否则匹配pattern成功，同时匹配终止，不再对string向后匹配。例子如下：

导入re模块

import re

将正则表达式编译成Pattern对象，注意hello前面的r的意思是“原生字符串”

pattern = re.compile(r’hello’)

使用re.match匹配文本，获得匹配结果，无法匹配时将返回None

result1 = re.match(pattern,’hello’)
result2 = re.match(pattern,’helloo CQC!’)
result3 = re.match(pattern,’helo CQC!’)
result4 = re.match(pattern,’hello CQC!’)

如果1匹配成功

if result1:
# 使用Match获得分组信息
print result1.group()
else:
print ‘1匹配失败！’

如果2匹配成功

if result2:
# 使用Match获得分组信息
print result2.group()
else:
print ‘2匹配失败！’

如果3匹配成功

if result3:
# 使用Match获得分组信息
print result3.group()
else:
print ‘3匹配失败！’

如果4匹配成功

if result4:
# 使用Match获得分组信息
print result4.group()
else:
print ‘4匹配失败！’

（2）re.search(pattern, string[, flags])
search方法与match方法极其类似，区别在于match()函数只检测re是不是在string的开始位置匹配，search()会扫描整个string查找匹配，match（）只有在0位置匹配成功的话才有返回，如果不是开始位置匹配成功的话，match()就返回None。同样，search方法的返回对象同样match()返回对象的方法和属性。我们用一个例子感受一下

导入re模块

import re

将正则表达式编译成Pattern对象

pattern = re.compile(r’world’)

使用search()查找匹配的子串，不存在能匹配的子串时将返回None

这个例子中使用match()无法成功匹配

match = re.search(pattern,’hello world!’)
if match:
# 使用Match获得分组信息
print match.group()

输出

world

（3）re.split(pattern, string[, maxsplit])
按照能够匹配的子串将string分割后返回列表。maxsplit用于指定最大分割次数，不指定将全部分割。我们通过下面的例子感受一下。
例子中的 r’\d+’是什么意思呢?\d是匹配数字字符[0-9],+匹配一个或多个放在一起是匹配一个或多个数字字符,比如:’1‘、’34‘、’9
import re

pattern = re.compile(r’\d+’)
print re.split(pattern,’one1two2three3four4’)

输出

[‘one’, ‘two’, ‘three’, ‘four’, ”]

（4）re.findall(pattern, string[, flags])
搜索string，以列表形式返回全部能匹配的子串。我们通过这个例子来感受一下
import re

pattern = re.compile(r’\d+’)
print re.findall(pattern,’one1two2three3four4’)

输出

[‘1’, ‘2’, ‘3’, ‘4’]

（5）re.finditer(pattern, string[, flags])
搜索string，返回一个顺序访问每一个匹配结果（Match对象）的迭代器。我们通过下面的例子来感受一下
import re

pattern = re.compile(r’\d+’)
for m in re.finditer(pattern,’one1two2three3four4’):
print m.group(),

输出

1 2 3 4

（6）re.sub(pattern, repl, string[, count])
使用repl替换string中每一个匹配的子串后返回替换后的字符串。
当repl是一个字符串时，可以使用\id或\g、\g引用分组，但不能使用编号0。
当repl是一个方法时，这个方法应当只接受一个参数（Match对象），并返回一个字符串用于替换（返回的字符串中不能再引用分组）。
count用于指定最多替换次数，不指定时全部替换

import re

pattern = re.compile(r’(\w+) (\w+)’)
s = ‘i say, hello world!’

print re.sub(pattern,r’\2 \1’, s)

def func(m):
return m.group(1).title() + ’ ’ + m.group(2).title()

print re.sub(pattern,func, s)

output

say i, world hello!

I Say, Hello World!

（7）re.subn(pattern, repl, string[, count])
返回 (sub(repl, string[, count]), 替换次数)。
import re

pattern = re.compile(r’(\w+) (\w+)’)
s = ‘i say, hello world!’

print re.subn(pattern,r’\2 \1’, s)

def func(m):
return m.group(1).title() + ’ ’ + m.group(2).title()

print re.subn(pattern,func, s)

output

(‘say i, world hello!’, 2)

(‘I Say, Hello World!’, 2)

关于组的小结：
a、group()等于group(0)，代表整个匹配的子串
b、group(1)，代表编号为1的捕获组内容；group(2)代表编号为2的捕获组内容
c、指定多个参数时，以tuple形式返回。
d、普通捕获组与命名捕获组没有混合编号规则。捕获组的编号统一是按照“(”出现的顺序，从左到右，从1开始进行编号的。
总结：group就是返回捕获的内容。参数0或无参数表示整个正则表达式捕获的文本，1表示第1个括号匹配的内容，2表示第2个括号匹配的内容，以此类推。