python爬虫相关库的学习

最新推荐文章于 2024-09-11 10:08:47 发布

心动太短

最新推荐文章于 2024-09-11 10:08:47 发布

阅读量377

点赞数

文章标签：爬虫学习

本文链接：https://blog.csdn.net/m0_59038116/article/details/127021408

版权

一 requests库
urllib库使用繁琐，比如处理网页验证和Cookies时，需要编写Opener和Handler来处理。为了更加方便的实现这些操作，就有了更为强大的requests库。

1.通过get方法获取网页内容

def htmlcontent(url):
    req = requests.get(url)
    req.encoding='utf-8'
    content=req.text
    with open('../content/text/1.txt', 'w', encoding='utf-8') as f:
        f.write(content)

二 Beautiful Soup库

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

1.创建对象

soup = BeautifulSoup(html,'lxml')  #创建 beautifulsoup 对象

2.四种对象：Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

1.tag（查找的是在所有内容中的第一个符合要求的标签）
print （soup.title）
print（soup.head）

2.NavigableString（得到了标签的内容用 .string 即可获取标签内部的文字）
print （soup.p.string）

3.遍历文档树

tag 的 .content 属性可以将tag的子节点以列表的方式输出：
    print（soup.a.contents ）
区别print（soup.a）
soup.a ：包含a整个标签
soup.a.contents：仅包含标签内的内容并且以列表进行输出

4.搜索文档树

搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件
find_all( name , attrs , recursive , text , **kwargs )
1.Beautiful Soup会通过正则表达式的 match() 来匹配内容.
    soup.find_all(re.compile("^b"))
2.soup.find_all('b'）
3.如果传入列表参数,Beautiful Soup会将与列表中任一元素匹配的内容返回.
    soup.find_all(["a", "b"])    
4.keyword 如果包含一个名字为 id 的参数,Beautiful Soup会搜索每个tag的”id”属性：
    soup.find_all(id='link2')
5.text参数 搜索文档中的字符串内容
    soup.find_all(text=re.compile("Dormouse"))
6.limit 参数 限制返回个数   
    soup.find_all("a", limit=2)

find( name , attrs , recursive , text , **kwargs )
区别是 find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果

5.css选择器

筛选元素，用到的方法是 soup.select()，返回类型是 list
1.标签名不加任何修饰，类名前加点，id名前加 #

print soup.select('title')

print soup.select('.home')

print soup.select('#school')
2.组合查找：p 标签中，id 等于 link1的内容
print soup.select('p #link1')
3.属性查找：属性需要用中括号括起来，注意属性和标签属于同一节点，所以中间不能加空格
print soup.select('a[class="sister"]')

三 re库

在Python中需要通过正则表达式实现对字符串的匹配

1.re.match函数

re.match(pattern, string, flags=0)
pattern：正则表达式
string：字符串
flag：标志位控制匹配的模式是否区分大小写，多行匹配等

f正则表达式修饰符flag - 可选标志，多个标志可以通过按位 OR(|) 它们来指定

2.group(num)函数：[ 或groups() ] 匹配对象函数来获取匹配表达式。

匹配的整个表达式的字符串，返回对应值的元组。

line = "Cats are smarter than dogs"
matchObj = re.match( r'(.*) are (.*?) .*', line, re.M|re.I)
if matchObj:
   print "matchObj.group() : ", matchObj.group() //Cats are smarter than dogs
   print "matchObj.group(1) : ", matchObj.group(1)//Cats 
   print "matchObj.group(2) : ", matchObj.group(2)//smarter
else:
   print "No match!!"

3.re.search(pattern, string, flags=0) ：扫描整个字符串并返回第一个成功的匹配。

▲re.search 与re.match的区别

re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。

4.re.sub函数用于替换字符串中的匹配项。

re.sub(pattern, repl, string, count=0, flags=0)
（pattern：正则表达式，repl：替换的字符串，string：源字符串，count:模式匹配后替换的最多次数，flag:表达式修饰符）


phone = "2004-959-559 # 这是一个国外电话号码"
 
# 删除字符串中的 Python注释 
num = re.sub(r'#.*$', "", phone)
print "电话号码是: ", num//2004-959-559 
 
# 删除非数字(-)的字符串 
num = re.sub(r'\D', "", phone)
print "电话号码是 : ", num//2004959559

5.re.compile 函数：用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。

compile(pattern [, flags]) ,根据包含的正则表达式的字符串创建模式对象。可以实现更有效率的匹配。在直接使用字符串表示的正则表达式进行search,match和findall操作时，python会将字符串转换为正则表达式对象。而使用compile完成一次转换之后，在每次使用模式的时候就不用重复转换。当然，使用re.compile()函数进行转换后，re.search(pattern, string)的调用方式就转换为 pattern.search(string)的调用方式。


pattern = re.compile(r'\d+')                    # 用于匹配至少一个数字
m = pattern.match('one12twothree34four')        # 查找头部，没有匹配
print m//None

m = pattern.match('one12twothree34four', 2, 10) # 从'e'的位置开始匹配，没有匹配
print m//None

m = pattern.match('one12twothree34four', 3, 10) # 从'1'的位置开始匹配，正好匹配
print m//<_sre.SRE_Match object at 0x10a42aac0>  #返回一个 Match 对象

m.group(0) '12' 
# 获得一个或多个分组匹配的字符串，当要获得整个匹配的子串时，可直接使用 group() 或 group(0)；

m.start(0)  3 
#获取分组匹配的子串在整个字符串中的起始位置（子串第一个字符的索引），参数默认值为 0

m.end(0)    5
#获取分组匹配的子串在整个字符串中的结束位置（子串最后一个字符的索引+1），参数默认值为 0

m.span(0)  (3, 5)
#返回 (start(group), end(group))

6.findall:在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，

注意： match 和 search 是匹配一次 findall 匹配所有。

findall(string[, pos[, endpos]])
pos：字符串起始位置，默认为0
endpos：字符串结尾位置，默认串的长度
string：待匹配字符串

pattern = re.compile(r'\d+')   # 查找数字
result1 = pattern.findall('runoob 123 google 456')//['123', '456']
result2 = pattern.findall('run88oob123google456', 0, 10)//['88', '12']

7.re.split：按照能够匹配的子串将字符串分割后返回列表

re.split(pattern, string[, maxsplit=0, flags=0])

pattern：正则表达式

string：待匹配的字符串

maxsplit:分割次数

flag：正则表达式匹配模式

re.split('a*', 'hello world')   # 对于一个找不到匹配的字符串而言，split 不会对其作出分割
    ['hello world']

re.split('\W+', ' runoob, runoob, runoob.', 1) 
['', 'runoob, runoob, runoob.']

8.正则表达式对象,

re.RegexObject

re.compile() 返回 RegexObject 对象。

re.MatchObject

group() 返回被 RE 匹配的字符串。

start() 返回匹配开始的位置
end() 返回匹配结束的位置
span() 返回一个元组包含匹配 (开始,结束) 的位置
正则表达式模式

模式字符串使用特殊的语法来表示一个正则表达式：

字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。

多数字母和数字前加一个反斜杠时会拥有不同的含义。

标点符号只有被转义时才匹配自身，否则它们表示特殊的含义。

反斜杠本身需要使用反斜杠转义。

由于正则表达式通常都包含反斜杠，所以你最好使用原始字符串来表示它们。模式元素(如 r'\t'，等价于 '\\t')匹配相应的特殊字符。

下表列出了正则表达式模式语法中的特殊元素。如果你使用模式的同时提供了可选的标志参数，某些模式元素的含义会改变。