【解析归纳】常用解析策略

CSS选择器

XPath

from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())  # 加载目标HTML文档
# 定位节点
result = html.xpath('//span')  # 常规节点搜索,返回值为节点列表
result = html.xpath('//span[@class="xxx"]')  # 在搜索时可以利用@进行属性过滤
# 获取信息
result = html.xpath('//span[@class="xxx"]/text()')  # 获得节点内的文本
result = html.xpath('//span/@class')  # 获得节点属性
# 高级过滤(函数过滤)
result = html.xpath('//span[contains(@class, "li")]')  # 搜索属性class中包含字符"li"的span节点
    # ⬆上面这种方式在某个节点的某个属性有多个值时经常用到,如某个节点的class属性通常有多个
result = html.xpath('//span[contains(@class, "li") and @name="item"]')  # 多属性匹配

Beautiful Soup

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'lxml')  # 初始化soup对象,第一个参数为目标HTML文档,第二个参数为基础解析库
# print(soup.prettify())  # prettify()可以把要解析的字符串以标准格式输出

# 【用法示例】
print(soup.title)
print(soup.title.name)
print(soup.title.string)
print(soup.title.parent.name)
print(soup.p)
print(soup.p['class'])
print(soup.a)
print(soup.find_all('a'))
print(soup.find(id="link3"))
for node in soup.find_all('a'):
    print(node.get('href'))
# 更多用法请参考文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/#

转载于:https://www.cnblogs.com/lokvahkoor/p/10756947.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值