学习使用python的beautiful soup库,大大方便了网络爬虫对于HTML文件的解析,beautiful soup将HTML拆解成对象处理,将HTML转换成字典和数组,相比利用正则表达式解析的爬虫,省略了学习正则表达式的高成本
说人话就是正则表达式太难了,博主学不会!
本篇只介绍Beautiful Soup的使用,不涉及安装、配置。
Beautiful Soup的使用方法如下:
1、创建Beautiful Soup对象
首先导入bs4库,创建Beautiful Soup对象
12from bs4 import BeautifulSoup
#导入BeautifulSoup模块
soup = BeautifulSoup(html.decode(
"utf-8"
))
#创建BeautifulSoup对
2、格式化输出
官方文档实例
1234567891011121314151617181920212223242526from BeautifulSoup import BeautifulSoup
import re
doc = [
'<title>Page title</title>'
,
'<p id="firstpara" align="center">This is paragraph <b>one</b>.'
,
'</p><p id="secondpara" align="blah">This is paragraph <b>two</b>.'
]
soup = BeautifulSoup(
''
.join(doc))
print soup.prettify()
# <title>
# Page title
# </title>
# </p><p id="firstpara" align="center">
# This is paragraph
# <b>
# one
# </b>
# .
# </p>
# <p id="secondpara" align="blah">
# This is paragraph
# <b>
# two
# </b>
# .
# </p>
后面再补充。。。。
python2.7 beautifulsoup学习使用
最新推荐文章于 2024-05-21 10:35:05 发布