python解析html最好选用模块_python 极好用的解析 html 标签的模块

最新推荐文章于 2021-02-21 15:46:36 发布

廖俊涛

最新推荐文章于 2021-02-21 15:46:36 发布

阅读量647

点赞数

本文链接：https://blog.csdn.net/weixin_34883093/article/details/113515673

版权

BeautifulSoup HTML解析标签操作 CSS选择器 HTML.parser

关键词由CSDN通过智能技术生成

#-*- coding: utf-8 -*-

from bs4 importBeautifulSoupdefmain():

html= '''

Test

Test

"i'm a div"

'''soup= BeautifulSoup(html, 'html.parser')#输出整个 html

#print '

', soup.prettify()

#title 标签

#print '

', soup.title

#title 标签名称

#print '

', soup.title.name

#title 标签内容

#print '

', soup.title.string

#title 标签的父级标签名称

#print '

', soup.title.parent.name

#p 标签(首个 p)

#print '

', soup.p

#p 标签名称

#print '

', soup.p.name

#p 标签下的 b 标签

#print '

', soup.p.b

#p 标签的 class 属性值，类型、数组首个值

#print '

', soup.p["class"], type(soup.p["class"]), soup.p["class"][0]

#首个 a 标签

#print '

', soup.a

#查找所有 a 标签，类型数组

#a_arr = soup.find_all('a')

#for value in a_arr:

#print '

', value

#查找 id = link2 的标签(特殊的标签属性可以不写 attrs)

#print '

', soup.find(id='link2')

#查找 class 是 title 的标签

#print '

', soup.find(attrs={'class': 'title'})

#查找 name 是 ele 的标签

#print '

', soup.find(attrs={'name': 'ele'})

#查找 img，获取相应属性值

#img_arr = soup.find_all('img')

#for value in img_arr:

#print '

', value['src']

#attrs = value.attrs

#for attr in attrs:

#print '

', attr

#if attr == 'data-src':

#print '

', value[attr]

#获取 div 标签下所有子节点

#print '

', soup.div.contents,

#获取 div 下首个子节点

#print '

', soup.div.contents[0]

#获取 div 下第二个子节点

#print '

', soup.div.contents[1]

#获取 div 下第二个子节点

#print '

', soup.div.contents[1].li

#获取 b 标签的文本内容

#print '

', soup.b.get_text()

#获取无值属性

#print '

', soup.div.title, type(soup.div.title), soup.div.title == None, not soup.div.title

#not 取反

#if not None:

#print None

#css 选择器 select()

print '', soup.select('b')#file onload

if __name__ == '__main__':

main()

廖俊涛

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python解析html最好选用模块_python 极好用的解析 html 标签的模块

#-*- coding: utf-8 -*-from bs4 importBeautifulSoupdefmain():html= '''TestTest"i'm a div" '''soup= BeautifulSoup(html, 'html.parser')#输出整个 html#pr...
复制链接

扫一扫