python中BeautifulSoup简单使用

bob62856

于 2017-08-28 21:43:10 发布

阅读量270

点赞数

文章标签： python

Python 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

取出一个html格式的正文和链接，代码：

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc,'lxml')

for link in soup.find_all('a'):
    print link.get('href')
print(soup.get_text())

学习笔记：
1、get_text()方法，返回tag中的文本内容。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

bob62856 CSDN认证博客专家 CSDN认证企业博客

码龄10年

507: 原创

9万+: 周排名

1万+: 总排名

137万+: 访问

: 等级

1万+: 积分

719: 粉丝

717: 获赞

130: 评论

4427: 收藏

私信

关注

热门文章

分类专栏

Algorithm 374篇
Linux 210篇
Golang 27篇
Kubernetes 14篇
Docker 15篇
DPDK 31篇

最新评论

DPDK技术介绍（一）
编程小白板: 想问一下,dpdk怎么设置tso硬件卸载功能的
CTF web题总结--爆破用户名密码
晴天彩虹311: 如果执行else部分的话，那domin获得的有可能会是一个URL协议而不是完整的URL啊
libpcap捕包机制分析（四）
macWhale: 第2次拷贝不存在，那个是只拷了地址，没有拷数据
vim 配置
CSDN-Ada助手: 如何在 vim 中快速移动光标到目标行？
Golang sync.Map原理
巴赫的电吉他: 有一个问题，当键值同时存在于read和dirty的时候，去修改这些数据，那是只修改read中的数据吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。