bs4_lxml的基本用法

# -*- coding:utf-8 -*-

# 需要下载bs4包 pip install bs4
# lxml xpath会用到里边的tree
from bs4 import BeautifulSoup
import codecs
# BeautifulSoup 是python支持的一个第三方的包,作用是用来解析网页,提取数据

# lxml 第三方的解析包,解析html速度比较快,功能强大,底层是c语言实现的
# 1.html源代码  2.解析器 lxml
# bs是根节点对象 即最基础的节点对象
bs = BeautifulSoup(codecs.open('index.html', 'r', encoding='utf-8'), 'lxml')
# bs是BeautifulSoup类型的对象
print(bs.prettify())  #与print(bs)都可以输出网页内容  但注意它并不是网页源代码,而是一个对象
# 1.<class 'bs4.BeautifulSoup'>
print(type(bs))

print(bs.head.title)
# 2.<class 'bs4.element.Tag'>    bs4.element.Tag是子节点
print(type(bs.title))

# name 节点的名称,bs.name获取到的是[document]
# 对于a\p\div等标签来说,获取到的是标签的名称
print(bs.name)
print(bs.title.name)
# str类型
print(type(bs.title.name))

# attrs 获取标签节点的属性,返回的是一个key:value形式的字典,如果某个属性有多个值,返回value就是一个列表
print(bs.a.attrs)
# 获取某一个属性值
print(bs.a['href'
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值