python解析库 爬虫_Python-爬虫-解析库(Beautiful Soup)的使用

本文介绍了Python的HTML解析库BeautifulSoup的使用,包括安装、基本操作和选择器的运用,如获取节点内容、属性,以及对子节点、父节点、兄弟节点的操作,同时展示了如何通过find_all()和CSS选择器select()进行元素筛选。
摘要由CSDN通过智能技术生成

Beautiful Soup 是Python的一个HTML或者XML的解析库;会自动将输入的文档转化为Unicode编码,输出文档转换为UTF-8编码;

安装:

C:\Users\issuser>pip install beautifulsoup4

Beautiful Soup在解析时实际上依赖解析器,出了支持Python标准库的HTML解析器外,还支持某些第三方的解析器(lxml);

支持的第三方解析器为:

1 #Beautiful Soup使用

2 importrequests3 from lxml importhtml4 from bs4 importBeautifulSoup5

6 html="""

7 8 9

10 第一个HTML页面11 37 38 39
40

什么是青春

41

42 2010年大专毕业,各种原因,频繁换工作,43 简历上能写的经验只有一年维护,女友看我这个现状分手,[哈哈]44 去年打算考研,结果玩了一年,今年继续没工作考研,压力空前。45 这三年,一步错步步错,没有坚定的方向,如今25岁才意识到,46 人最可悲的就是不知自己想要什么喜欢什么想做什么,没女人没朋友没工作性格内向没背景47 考研复习进度也很慢,可能是情绪关系一直看不进去,别人都第二轮了,我还刚开始,48 每天失眠睡不着躲在被子里哭,也不知道该怎么办,每天连个说话的人也没有,商量的人也没,49 抑郁的经常想去死打算九月份一个人去上海从零开始找程序员的工作,还要兼顾考研,读两三年毕业就29了50 ,这时候怎么办,.51

我也不清楚!

52 54
55

56 """

57 #上面html没有完全结束,少

58 #Beautiful Soup 解析

59

60 if __name__=="__main__":61 soup=BeautifulSoup(html,'lxml')#初始化BeautifulSoup时则对html文本进行过了完整性修复

62 print(soup.prettify())#将要解析的字符串以标准的锁紧格式输出

63 print(soup.title.string)#获取title节点,通过string属性来获取文本内容

64 print(soup.title.string)#获取title节点,通过string属性来获取文本内容

65 print(soup.h2.string)

66 print(type(soup.h2))# Tag类型,则可以通过string获取文本内容

节点选择器:即通过直接调用节点名称就可以选择该节点元素,string则可以获取节点中文本;

获取节点名称:

#获取节点名称

print(soup.h2.name)

获取节点属性:如果属性唯一,则获取返回结果为字符串;不唯一,则返回字符串组成的列表;

#获取节点属性

print(soup.h2.attrs['class'])

#获取所有属性

print(soup.h2.attrs)

或者更简洁方式:

#更简洁方式获取属性,则是省略attrs

print(soup.h2['class'])

获取文本:如果有多个p标签存在;

#获取p的文本,注意:这里只能获取到第一个p标签的文本

print(soup.p.string)

嵌套选择:如果获取的节点结果类型依然是bs4.element.Tag类型,则同样可以继续调用节点进行下一步筛选;

例如,获取p标签中嵌套image,获取image的src属性则为:

#嵌套选择:

print(soup.p.image['src'])

关联选择:有时候不能做到一步就选择到具体想要的节点, 需要选择某一个元素后,以它为基准再选择其他的子节点、父节点、兄弟节点等;

例如,获取p的所有子节点(包含标签前后文本内容,也会被拆分为节点),注意:contents只能获取到直接子节点,如果想获取孙子一下节点则需要再次继续层层获取:

#获取p节点的子节点,返回列表

print(soup.p.contents)print(soup.p.contents[1]['src'])

或者通过children属性获取子节点列表:

#也可以通过children获取所有子节点

print(soup.p.children)for i,j inenumerate(soup.p.children):print(i)print(j)

获取子孙节点,则可以通过 descendants属性获取:

#获取子孙节点列表

print(soup.p.descendants)for i, j inenumerate(soup.p.descendants):print(i)print(j)

获取直接父节点和祖先节点:通过parent和 parents(一直到最外层节点结束)实现;

#parent获取某个元素直接父节点(第一个)

print(soup.span.parent)#parents获取所有p节点父节点,以及父节点层层祖先节点

print(soup.span.parents)for i ,j inenumerate(soup.span.parents):print(i)print(j)

获取兄弟节点:next_sibling和previous_sibling分别获取节点的下一个和上一个兄弟节点,next_siblings 和previous_siblings则分别返回所有前面和后面的兄弟节点的生成器;

#获取兄弟节点

print(soup.image.next_sibling)#后一个兄弟节点

print(soup.image.next_siblings)#获取image的所有后续兄弟节点

for i,j inenumerate(soup.image.next_siblings):print(i)print(j)

print(list(soup.span.parents)[0])

方法选择器:

1)find_all()查询所有符合条件的元素;除此之外还有find(),find_parents(),find_parent(),find_previous()等方法,下面略;

1 #find_all()

2 print(soup.find_all(name='span'))#返回列表,所有span元素

3 print(soup.find(name='span'))#返回查找的第一个元素

4 print(soup.find_all(name='image',attrs={'alt':'图标ALT2'}))#返回列表

5

6 for tag in soup.find_all(name='p'):7 print(tag.find_all(name='image'))

for tag in soup.find_all(name='p'):

print(tag.find_all(name='image'))

外层for循环获取的tag类型为,因此可以根据该字段,继续使用find_all方法继续查找;

根据id和class属性查找:

print(soup.find_all(id ='list-1'))

print(soup.find_all(class _='element'))

2)Css选择器:select()方法筛选,参数传入css样式即可;

#css选择器:使用select方法

print(soup.select(".img"))print(soup.select("div p image"))print(type(soup.select('span')[1]))

注:#获取p的文本,注意:这里只能获取到第一个p标签的文本

print(soup.p.string)#

#两者等同

print(soup.p.get_text())

========================================================================================================================================================================

(上面写笔记过程中代码改了好多)完成代码如下:

1 #Beautiful Soup使用

2 importrequests3 from lxml importhtml4 from bs4 importBeautifulSoup5

6 html="""

7 8 9

10 第一个HTML页面11 38 39 40
41

什么是青春

42

43 2010年大专毕业,各种原因,频繁换工作,44 简历上能写的经验只有一年维护,女友看我这个现状分手,qq[哈哈]qq 45 去年打算考研,结果玩了一年,今年继续没工作考研,压力空前。46 这三年,一步错步步错,没有坚定的方向,如今25岁才意识到,第二个span47 人最可悲的就是不知自己想要什么喜欢什么想做什么,没女人没朋友没工作性格内向没背景48 考研复习进度也很慢,可能是情绪关系一直看不进去,别人都第二轮了,我还刚开始,49 每天失眠睡不着躲在被子里哭,也不知道该怎么办,每天连个说话的人也没有,商量的人也没,50 抑郁的经常想去死打算九月份一个人去上海从零开始找程序员的工作,还要兼顾考研,读两三年毕业就29了51 ,这时候怎么办,.52

53

54 我也不知道怎么办呢!55

56 58
59

60 """

61 #上面html没有完全结束,少

62 #Beautiful Soup 解析

63

64 if __name__=="__main__":65 soup=BeautifulSoup(html,'lxml')#初始化BeautifulSoup时则对html文本进行过了完整性修复

66 print(soup.prettify())#将要解析的字符串以标准的锁紧格式输出

67 print(soup.title.string)#获取title节点,通过string属性来获取文本内容

68 print(soup.h2.string)69 print(type(soup.h2))# Tag类型,则可以通过string获取文本内容

70 #获取节点名称

71 print(soup.h2.name)72 #获取节点属性

73 print(soup.h2.attrs['class'])74 #获取所有属性

75 print(soup.h2.attrs)76 #更简洁方式获取属性,则是省略attrs

77 print(soup.h2['class'])78 #获取p的文本,注意:这里只能获取到第一个p标签的文本

79 print(soup.p.string)#print(soup.p.get_text()) 两者等同

80

81 #嵌套选择:

82 print(soup.p.image['src'])83 #获取p节点的子节点,返回列表

84 print(soup.p.contents)85 print(soup.p.contents[1]['src'])86 #也可以通过children获取所有子节点

87 print(soup.p.children)88 for i,j inenumerate(soup.p.children):89 print(i)90 print(j)91 #获取子孙节点列表

92 print(soup.p.descendants)93 for i, j inenumerate(soup.p.descendants):94 print(i)95 print(j)96

97 #parent获取某个元素直接父节点(第一个)

98 print(soup.span.parent)99 #parents获取所有p节点父节点,以及父节点层层祖先节点

100 print(soup.span.parents)101 for i ,j inenumerate(soup.span.parents):102 print(i)103 print(j)104 print("-----------------------------------------------------")105 #获取兄弟节点

106 print(soup.image.next_sibling)#后一个兄弟节点

107 print(soup.image.next_siblings)#获取image的所有后续兄弟节点

108 for i,j inenumerate(soup.image.next_siblings):109 print(i)110 print(j)111 print(list(soup.span.parents)[0])112

113 #find_all()

114 print(soup.find_all(name='span'))#返回列表,所有span元素

115 print(soup.find(name='span'))#返回查找的第一个元素

116 print(soup.find_all(name='image',attrs={'alt':'图标ALT2'}))#返回列表

117

118 for tag in soup.find_all(name='p'):119 print(type(tag))120

121 print("-------------------------------------------------------")122 #css选择器:使用select方法

123 print(soup.select(".img"))124 print(soup.select("div p image"))125 print(type(soup.select('span')[1]))

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值