从零开始学习--Beautifulsoup 6月29日

Python

                                                                                                                                                                                ---小白121的记录笔记


Beautifulsoup

beautifulsoup 是 爬虫的一个第三方库,主要用于过滤出有用的数据

pip和ide工具都可以进行安装



BeautifulSoup 将 HTML 分成 四个对象

  • Tag
  • NavigableString
  • BeautifulSoup
  • Comment

创建 Beautifulsoup 对象

soup = BeautifulSoup(html)

打印soup对象的内容

print(soup.prettify()

打印 Tag

print(soup.html.encode('utf-8'))
print(soup.title.encode('utf-8'))
print(soup.head.encode('utf-8'))
print(soup.a.encode('utf-8'))
print(soup.p.encode('utf-8'))

所以 Tag 即使 HTML 里面的各种标签

对于Tag来说,有两个重要的属性

  • name
  • attrs
 
print (soup.title.name)
print (soup.a.attrs)

name 输入当前标签名字

attrs 把a标签的所以属性打印出来


Navigablestring

print(soup.a.string)

显示当前标签的内容


单词

sibling    兄弟姐妹

with        等待

element    要素

document    文档

previous    以前的





  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值