一 requests库
urllib库使用繁琐,比如处理网页验证和Cookies时,需要编写Opener和Handler来处理。为了更加方便的实现这些操作,就有了更为强大的requests库。
1.通过get方法获取网页内容
def htmlcontent(url):
req = requests.get(url)
req.encoding='utf-8'
content=req.text
with open('../content/text/1.txt', 'w', encoding='utf-8') as f:
f.write(content)
二 Beautiful Soup库
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
1.创建对象
soup = BeautifulSoup(html,'lxml') #创建 beautifulsoup 对象
2.四种对象:Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:
1.tag(查找的是在所有内容中的第一个符合要求的标签)
print (soup.title)
print(soup.head)
2.NavigableString(得到了标签的内容用 .string 即可获取标签内部的文字)
print (soup.p.string)
3.遍历文档树
tag 的 .content 属性可以将tag的子节点以列表的方式输出:
print(soup.a.contents )
区别print(soup.a)
soup.a :包含a整个标签
soup.a.contents:仅包含标签内的内容并且以列表进行输出
4.搜索文档树
搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件
find_all( name , attrs , recursive , text , **kwargs )
1.Beautiful Soup会通过正则表达式的 match() 来匹配内容.
soup.find_all(re.compile("^b"))
2.soup.find_all('b')
3.如果传入列表参数,Beautiful Soup会将与列表中任一元素匹配的内容返回.
soup.find_all(["a", "b"])
4.keyword 如果包含一个名字为 id 的参数,Beautiful Soup会搜索每个tag的”id”属性:
soup.find_all(id='link2')
5.text参数 搜索文档中的字符串内容
soup.find_all(text=re.compile("Dormouse"))
6.limit 参数 限制返回个数
soup.find_all("a", limit=2)
find( name , attrs , recursive , text , **kwargs )
区别是 find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果
5.css选择器
筛选元素,用到的方法是 soup.select(),返回类型是 list
1.标签名不加任何修饰,类名前加点,id名前加 #
print soup.select('title')
print soup.select('.home')
print soup.select('#school')
2.组合查找:p 标签中,id 等于 link1的内容
print soup.select('p #link1')
3.属性查找:属性需要用中括号括起来,注意属性和标签属于同一节点,所以中间不能加空格
print soup.select('a[class="sister"]')
三 re库
在Python中需要通过正则表达式实现对字符串的匹配
1.re.match函数
re.match(pattern, string, flags=0)
pattern:正则表达式
string:字符串
flag:标志位控制匹配的模式是否区分大小写,多行匹配等
f正则表达式修饰符flag - 可选标志,多个标志可以通过按位 OR(|) 它们来指定
2.group(num)函数:[ 或groups() ] 匹配对象函数来获取匹配表达式。
匹配的整个表达式的字符串,返回对应值的元组。
line = "Cats are smarter than dogs"
matchObj = re.match( r'(.*) are (.*?) .*', line, re.M|re.I)
if matchObj:
print "matchObj.group() : ", matchObj.group() //Cats are smarter than dogs
print "matchObj.group(1) : ", matchObj.group(1)//Cats
print "matchObj.group(2) : ", matchObj.group(2)//smarter
else:
print "No match!!"
3.re.search(pattern, string, flags=0) :扫描整个字符串并返回第一个成功的匹配。
▲re.search 与re.match的区别
re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。
4.re.sub函数用于替换字符串中的匹配项。
re.sub(pattern, repl, string, count=0, flags=0) (pattern:正则表达式,repl:替换的字符串,string:源字符串,count:模式匹配后替换的最多次数,flag:表达式修饰符)
phone = "2004-959-559 # 这是一个国外电话号码"
# 删除字符串中的 Python注释
num = re.sub(r'#.*$', "", phone)
print "电话号码是: ", num//2004-959-559
# 删除非数字(-)的字符串
num = re.sub(r'\D', "", phone)
print "电话号码是 : ", num//2004959559
5.re.compile 函数:用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用。
compile(pattern [, flags]) ,根据包含的正则表达式的字符串创建模式对象。可以实现更有效率的匹配。在直接使用字符串表示的正则表达式进行search,match和findall操作时,python会将字符串转换为正则表达式对象。而使用compile完成一次转换之后,在每次使用模式的时候就不用重复转换。当然,使用re.compile()函数进行转换后,re.search(pattern, string)的调用方式就转换为 pattern.search(string)的调用方式。
pattern = re.compile(r'\d+') # 用于匹配至少一个数字
m = pattern.match('one12twothree34four') # 查找头部,没有匹配
print m//None
m = pattern.match('one12twothree34four', 2, 10) # 从'e'的位置开始匹配,没有匹配
print m//None
m = pattern.match('one12twothree34four', 3, 10) # 从'1'的位置开始匹配,正好匹配
print m//<_sre.SRE_Match object at 0x10a42aac0> #返回一个 Match 对象
m.group(0) '12'
# 获得一个或多个分组匹配的字符串,当要获得整个匹配的子串时,可直接使用 group() 或 group(0);
m.start(0) 3
#获取分组匹配的子串在整个字符串中的起始位置(子串第一个字符的索引),参数默认值为 0
m.end(0) 5
#获取分组匹配的子串在整个字符串中的结束位置(子串最后一个字符的索引+1),参数默认值为 0
m.span(0) (3, 5)
#返回 (start(group), end(group))
6.findall:在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,
注意: match 和 search 是匹配一次 findall 匹配所有。
findall(string[, pos[, endpos]])
pos:字符串起始位置,默认为0
endpos:字符串结尾位置,默认串的长度
string:待匹配字符串
pattern = re.compile(r'\d+') # 查找数字
result1 = pattern.findall('runoob 123 google 456')//['123', '456']
result2 = pattern.findall('run88oob123google456', 0, 10)//['88', '12']
7.re.split:按照能够匹配的子串将字符串分割后返回列表
re.split(pattern, string[, maxsplit=0, flags=0])
pattern:正则表达式
string:待匹配的字符串
maxsplit:分割次数
flag:正则表达式匹配模式
re.split('a*', 'hello world') # 对于一个找不到匹配的字符串而言,split 不会对其作出分割
['hello world']
re.split('\W+', ' runoob, runoob, runoob.', 1)
['', 'runoob, runoob, runoob.']
8.正则表达式对象,
re.RegexObject
re.compile() 返回 RegexObject 对象。
re.MatchObject
group() 返回被 RE 匹配的字符串。
- start() 返回匹配开始的位置
- end() 返回匹配结束的位置
- span() 返回一个元组包含匹配 (开始,结束) 的位置
-
正则表达式模式
模式字符串使用特殊的语法来表示一个正则表达式:
字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。
多数字母和数字前加一个反斜杠时会拥有不同的含义。
标点符号只有被转义时才匹配自身,否则它们表示特殊的含义。
反斜杠本身需要使用反斜杠转义。
由于正则表达式通常都包含反斜杠,所以你最好使用原始字符串来表示它们。模式元素(如 r'\t',等价于 '\\t')匹配相应的特殊字符。
下表列出了正则表达式模式语法中的特殊元素。如果你使用模式的同时提供了可选的标志参数,某些模式元素的含义会改变。