python爬虫相关库的学习

一 requests库
urllib库使用繁琐,比如处理网页验证和Cookies时,需要编写Opener和Handler来处理。为了更加方便的实现这些操作,就有了更为强大的requests库。

1.通过get方法获取网页内容

def htmlcontent(url):
    req = requests.get(url)
    req.encoding='utf-8'
    content=req.text
    with open('../content/text/1.txt', 'w', encoding='utf-8') as f:
        f.write(content)

二 Beautiful Soup库

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

1.创建对象

soup = BeautifulSoup(html,'lxml')  #创建 beautifulsoup 对象

2.四种对象:Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

1.tag(查找的是在所有内容中的第一个符合要求的标签)
print (soup.title)
print(soup.head) 
2.NavigableString(得到了标签的内容用 .string 即可获取标签内部的文字)
print (soup.p.string)

3.遍历文档树

tag 的 .content 属性可以将tag的子节点以列表的方式输出:
    print(soup.a.contents )
区别print(soup.a)
soup.a :包含a整个标签
soup.a.contents:仅包含标签内的内容并且以列表进行输出

4.搜索文档树

搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件
find_all( name , attrs , recursive , text , **kwargs )
1.Beautiful Soup会通过正则表达式的 match() 来匹配内容.
    soup.find_all(re.compile("^b"))
2.soup.find_all('b')
3.如果传入列表参数,Beautiful Soup会将与列表中任一元素匹配的内容返回.
    soup.find_all(["a", "b"])    
4.keyword 如果包含一个名字为 id 的参数,Beautiful Soup会搜索每个tag的”id”属性:
    soup.find_all(id='link2')
5.text参数 搜索文档中的字符串内容
    soup.find_all(text=re.compile("Dormouse"))
6.limit 参数 限制返回个数   
    soup.find_all("a", limit=2)
find( name , attrs , recursive , text , **kwargs )
区别是 find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果

5.css选择器

筛选元素,用到的方法是 soup.select(),返回类型是 list
1.标签名不加任何修饰,类名前加点,id名前加 #

print soup.select('title')

print soup.select('.home')

print soup.select('#school')
2.组合查找:p 标签中,id 等于 link1的内容
print soup.select('p #link1')
3.属性查找:属性需要用中括号括起来,注意属性和标签属于同一节点,所以中间不能加空格
print soup.select('a[class="sister"]')

三 re库

在Python中需要通过正则表达式实现对字符串的匹配

1.re.match函数

re.match(pattern, string, flags=0)
pattern:正则表达式
string:字符串
flag:标志位控制匹配的模式是否区分大小写,多行匹配等

f正则表达式修饰符flag - 可选标志,多个标志可以通过按位 OR(|) 它们来指定

 2.group(num)函数:[ 或groups() ] 匹配对象函数来获取匹配表达式。

匹配的整个表达式的字符串,返回对应值的元组。

line = "Cats are smarter than dogs"
matchObj = re.match( r'(.*) are (.*?) .*', line, re.M|re.I)
if matchObj:
   print "matchObj.group() : ", matchObj.group() //Cats are smarter than dogs
   print "matchObj.group(1) : ", matchObj.group(1)//Cats 
   print "matchObj.group(2) : ", matchObj.group(2)//smarter
else:
   print "No match!!"

3.re.search(pattern, string, flags=0) :扫描整个字符串并返回第一个成功的匹配。

▲re.search 与re.match的区别

re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。

4.re.sub函数用于替换字符串中的匹配项。

re.sub(pattern, repl, string, count=0, flags=0)
(pattern:正则表达式,repl:替换的字符串,string:源字符串,count:模式匹配后替换的最多次数,flag:表达式修饰符)

phone = "2004-959-559 # 这是一个国外电话号码"
 
# 删除字符串中的 Python注释 
num = re.sub(r'#.*$', "", phone)
print "电话号码是: ", num//2004-959-559 
 
# 删除非数字(-)的字符串 
num = re.sub(r'\D', "", phone)
print "电话号码是 : ", num//2004959559

5.re.compile 函数:用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用。

compile(pattern [, flags]) ,根据包含的正则表达式的字符串创建模式对象。可以实现更有效率的匹配。在直接使用字符串表示的正则表达式进行search,match和findall操作时,python会将字符串转换为正则表达式对象。而使用compile完成一次转换之后,在每次使用模式的时候就不用重复转换。当然,使用re.compile()函数进行转换后,re.search(pattern, string)的调用方式就转换为 pattern.search(string)的调用方式。


pattern = re.compile(r'\d+')                    # 用于匹配至少一个数字
m = pattern.match('one12twothree34four')        # 查找头部,没有匹配
print m//None

m = pattern.match('one12twothree34four', 2, 10) # 从'e'的位置开始匹配,没有匹配
print m//None

m = pattern.match('one12twothree34four', 3, 10) # 从'1'的位置开始匹配,正好匹配
print m//<_sre.SRE_Match object at 0x10a42aac0>  #返回一个 Match 对象

m.group(0) '12' 
# 获得一个或多个分组匹配的字符串,当要获得整个匹配的子串时,可直接使用 group() 或 group(0);

m.start(0)  3 
#获取分组匹配的子串在整个字符串中的起始位置(子串第一个字符的索引),参数默认值为 0

m.end(0)    5
#获取分组匹配的子串在整个字符串中的结束位置(子串最后一个字符的索引+1),参数默认值为 0

m.span(0)  (3, 5)
#返回 (start(group), end(group))

6.findall:在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,

注意: match 和 search 是匹配一次 findall 匹配所有。

findall(string[, pos[, endpos]])
pos:字符串起始位置,默认为0
endpos:字符串结尾位置,默认串的长度
string:待匹配字符串
pattern = re.compile(r'\d+')   # 查找数字
result1 = pattern.findall('runoob 123 google 456')//['123', '456']
result2 = pattern.findall('run88oob123google456', 0, 10)//['88', '12']
 

7.re.split:按照能够匹配的子串将字符串分割后返回列表

re.split(pattern, string[, maxsplit=0, flags=0])

pattern:正则表达式

string:待匹配的字符串

maxsplit:分割次数

flag:正则表达式匹配模式

re.split('a*', 'hello world')   # 对于一个找不到匹配的字符串而言,split 不会对其作出分割
    ['hello world']

re.split('\W+', ' runoob, runoob, runoob.', 1) 
['', 'runoob, runoob, runoob.']

8.正则表达式对象,

re.RegexObject

re.compile() 返回 RegexObject 对象。

re.MatchObject

group() 返回被 RE 匹配的字符串。

  • start() 返回匹配开始的位置
  • end() 返回匹配结束的位置
  • span() 返回一个元组包含匹配 (开始,结束) 的位置
  • 正则表达式模式

    模式字符串使用特殊的语法来表示一个正则表达式:

    字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。

    多数字母和数字前加一个反斜杠时会拥有不同的含义。

    标点符号只有被转义时才匹配自身,否则它们表示特殊的含义。

    反斜杠本身需要使用反斜杠转义。

    由于正则表达式通常都包含反斜杠,所以你最好使用原始字符串来表示它们。模式元素(如 r'\t',等价于 '\\t')匹配相应的特殊字符。

    下表列出了正则表达式模式语法中的特殊元素。如果你使用模式的同时提供了可选的标志参数,某些模式元素的含义会改变。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值