BeautifulSoup处理html

这是一个python库,用来处理html之类的文本内容
官网http://www.crummy.com/software/BeautifulSoup/#Download 


这个是中文文档

http://zm6.sm-img2.com/?src=http%3A%2F%2Fwww.crummy.com%2Fsoftware%2FBeautifulSoup%2Fbs3%2Fdocumentation.zh.html&uid=51558658fb275070cd84ef8a462ae6b9&hid=&restype=1&from=derive&depth=2&link_type=60&query=&uc_param_str=


这是4的版本的英文文档

http://zm6.sm-img2.com/?src=http%3A%2F%2Fwww.crummy.com%2Fsoftware%2FBeautifulSoup%2Fdocumentation.html&uid=51558658fb275070cd84ef8a462ae6b9&hid=&restype=1&from=derive&depth=3&link_type=60&uc_param_str=&query=beautifulsoup

它有两个版本。一个是BeautifulSoup,另外一个是BeautifulSoup4

安装方法官网都有。

下面是BeautifulSoup的版本,不好用

from BeautifulSoup import BeautifulSoup
soup=BeautifulSoup(html)
len(soup)
<del>soup.contents[0].text</del>

html是str格式的,长度用len来取,

html里面的文本,相当于innerText是用text来表示。

原版的不太好用,还是bs4版本比较好用。


from bs4 import BeautifulSoup

markup = '<a href="http://example.com/">\nI linked to <i>example.com</i>\n</a>'
soup = BeautifulSoup(markup)
print soup.get_text()



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值