BeautifulSoup <p> 中去掉 <br/> 获取文本内容


Data

>>> type(ips)
<class 'bs4.element.Tag'>
>>> print ips
<p>64.158.31.142:3128 美国 科罗拉多州布隆菲尔德市Level3通信公司<br/>42.104.84.107:8080 印度  非大陆<br/>110.37.216.6:8080 巴基斯坦  非大陆<br/>54.70.50.55:3128 美国 新泽西州(Merck公司)<br/>182.253.121.33:8080 印度尼西亚  非大陆<br/></p>

Code

>>> type(ips.find_all(text=True))
<class 'bs4.element.ResultSet'>
>>> res = ips.find_all(text=True)
>>> for str in res:
    print str

117.4.136.145:8080 越南  非大陆
188.166.83.6:1080 俄罗斯  非大陆
138.197.157.44:1080 美国  非大陆
83.56.123.0:3128 西班牙  非大陆
183.89.210.22:8080 泰国  非大陆
111.62.243.64:80 中国 移动

or

>>> for str in ips.descendants:
    if type(str) == type(ips):
        None
    else:
        print str.string

117.4.136.145:8080 越南  非大陆
188.166.83.6:1080 俄罗斯  非大陆
138.197.157.44:1080 美国  非大陆
83.56.123.0:3128 西班牙  非大陆
183.89.210.22:8080 泰国  非大陆
111.62.243.64:80 中国 移动

参考

1. Beautifulsoup文档

2. 知乎网友方法

3. arsing unclosed <br> tags with BeautifulSoup

  • 8
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值