python的BeautifulSoup库简单使用

最新推荐文章于 2024-07-12 16:16:27 发布

BlackJayson

最新推荐文章于 2024-07-12 16:16:27 发布

阅读量308

点赞数

分类专栏：笔记文章标签： python Beautifulsoup 新手简单

本文链接：https://blog.csdn.net/qq_43519709/article/details/88600219

版权

笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

声明

本人也是自学python的小佬，因此博客内容仅供参考。
用于提醒自己。长期更新。
如有错误，欢迎指正。

BeautifulSoup是一个结构简单，容易理解的网站解析库，中文含义美味的汤，使用该库的过程即可成为“煲汤”。本文章主要表述BeautifulSoup库的基本用法。

引用BeautifulSoup库

from bs4 import BeautifulSoup

使用pip安装该库即可

创建连接

faker = {'User-Agent':'XXXXXXX'}
r = requests.get(url,headers = faker)
r.encoding = r.apparent_encoding
demo = r.text
soup = BeautifulSoup(demo,'html.parser')

faker用于储存浏览器头部。在使用浏览器访问网站时，网站会请求浏览器的头部以判断

“来者何人”

而构造爬虫的时候，最基本的方法就是以头部进行伪装。
以下头部转载自：https://blog.csdn.net/mouday/article/details/80182397


user_agent = [
    "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
    "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
    "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0",
    "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727; .NET CLR 3.0.30729; .NET CLR 3.5.30729; InfoPath.3; rv:11.0) like Gecko",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)",
    "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1",
    "Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1",
    "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11",
    "Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Avant Browser)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)",
    "Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",
    "Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",
    "Mozilla/5.0 (iPad; U; CPU OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",
    "Mozilla/5.0 (Linux; U; Android 2.3.7; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1",
    "MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1",
    "Opera/9.80 (Android 2.3.4; Linux; Opera Mobi/build-1107180945; U; en-GB) Presto/2.8.149 Version/11.10",
    "Mozilla/5.0 (Linux; U; Android 3.0; en-us; Xoom Build/HRI39) AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 Safari/534.13",
    "Mozilla/5.0 (BlackBerry; U; BlackBerry 9800; en) AppleWebKit/534.1+ (KHTML, like Gecko) Version/6.0.0.337 Mobile Safari/534.1+",
    "Mozilla/5.0 (hp-tablet; Linux; hpwOS/3.0.0; U; en-US) AppleWebKit/534.6 (KHTML, like Gecko) wOSBrowser/233.70 Safari/534.6 TouchPad/1.0",
    "Mozilla/5.0 (SymbianOS/9.4; Series60/5.0 NokiaN97-1/20.0.019; Profile/MIDP-2.1 Configuration/CLDC-1.1) AppleWebKit/525 (KHTML, like Gecko) BrowserNG/7.1.18124",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0; HTC; Titan)",
    "UCWEB7.0.2.37/28/999",
    "NOKIA5700/ UCWEB7.0.2.37/28/999",
    "Openwave/ UCWEB7.0.2.37/28/999",
    "Mozilla/4.0 (compatible; MSIE 6.0; ) Opera/UCWEB7.0.2.37/28/999",
    # iPhone 6：
	"Mozilla/6.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/8.0 Mobile/10A5376e Safari/8536.25",

]
headers = {'User-Agent': random.choice(user_agent)}

#随机获取一个请求头
def get_user_agent():
    return random.choice(USER_AGENTS)

(原文：https://blog.csdn.net/mouday/article/details/80182397）

回到请求连接。使用resquests方法请求网站内容，然后

r.encoding = r.apparent_encoding

这是因为网页的编码由于某种原因，写在网页头部的编码方式和网页内部的编码并不相同，这条语句可以解决大部分网页的乱码问题

然后取得网页的文本值放在demo种，再开始“煲汤”

soup = BeautifulSoup(demo,‘html.parser’)

上方的’html.parser’是bs4的一种网站解析库,其他解析库及其特点：

名称	使用语句	优点	缺点
标准库	BeautifulSoup(demo, “html.parser”)	Python的内置标准库、执行速度适中、文档容错能力强，可以应对某些结构混乱的页面	Python 2.7.3 or 3.2.2)前的版本中文容错能力差
lxml HTML解析器	BeautifulSoup(demo, “lxml”)	速度快、文档容错能力强	需要安装C语言库
lxml XML解析器	BeautifulSoup(demo, “xml”)	速度快、唯一支持XML的解析器	需要安装C语言库
html5lib	BeautifulSoup(demo, “html5lib”)	最好的容错性、以浏览器的方式解析文档、生成HTML5格式的文档	速度慢、不依赖外部扩展

到此，一锅汤就煲好了

节点访问

Beautifulsoup库的提取方式是按照网站的树状节点进行的。html即最大的节点，其他所有的节点都是子节点。


from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')#传入解析器：lxml

print(soup.p.attrs['name'])#获取p标签中，name这个属性的值
print(soup.title.name)#获取标签的名
print(soup.p.string)#获取标签的文本内容
print(soup.p.contents)#获取指定标签的子节点，返回类型是list

for i,children in enumerate(soup.p.children):#关键词：children。访问子节点。children接受内容。
	print(i,children)
for i,child in enumerate(soup.p.descendants):#关键词：descendants。访问子孙节点。child接受内容
	print(i,child)
	
print(soup.a.parent)#获取指定标签的父节点
print(list(enumerate(soup.a.parents)))#获取指定标签的祖先节点

选择器

使用节点去层层访问网站内容很麻烦。这个时候就可以使用选择器
**find_all( name , attrs , recursive , text , kwargs )
可根据标签名、属性、内容查找文档。返回列表类型。

**find（name , attrs , recursive , text , kwargs ）
可根据标签名、属性、内容查找文档。返回第一个匹配的节点。

from bs4 import 
BeautifulSoup soup = BeautifulSoup(html, 'lxml') 
print(soup.find_all('ul'))#查找所有ul标签下的内容 print(type(soup.find_all('ul')[0]))#查看其类型

for ul in soup.find_all('ul'):
    print(ul.find_all('li'))#查找所有ul下的所有li

利用属性

from bs4 import BeautifulSoup
 soup = BeautifulSoup(html, 'lxml') 
 print(soup.find_all(id='list-1'))#id是个特殊的属性，可以直接使用 print(soup.find_all(class_='element')) #class是关键字所以要用class_

print('div',id = 'content')#查找id为content的div
print('div','box')#查找class为box的div，class与id不同，可以不用写出来。

利用文本值

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
print(soup.find_all(text='Foo'))#查找文本为Foo的内容，但是返回的不是标签

方法

find用法和findAll一模一样，但是返回的是找到的第一个符合条件的内容输出。
find_parents()， find_parent()
find_parents()返回所有祖先节点，find_parent()返回直接父节点。

find_next_siblings() ,find_next_sibling()
1返回后面的所有兄弟节点，2返回后面的第一个兄弟节点

find_previous_siblings(),find_previous_sibling()
1返回前面所有兄弟节点…

find_all_next(),find_next()
1返回节点后所有符合条件的节点，2返回后面第一个符合条件的节点

find_all_previous()和find_previous()
查找所有先辈节点和所有父辈节点

css选择器

通过select()直接传入CSS选择器即可完成选择

from bs4 import BeautifulSoup 
soup = BeautifulSoup(html, 'lxml') 
print(soup.select('.panel .panel-heading'))#.代表class，中间需要空格来分隔 print(soup.select('ul li')) #选择ul标签下面的li标签 
print(soup.select('#list-2 .element')) #'#'代表id。这句的意思是查找id为"list-2"的标签下的，class=element的元素 
print(type(soup.select('ul')[0]))#打印节点类型

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
for ul in soup.select('ul'):
	print(ul.select('li'))
#使用嵌套的方法进行选择

for ul in soup.select('ul'):
    print(ul['id'])# 用[ ]即可获取属性
    print(ul.attrs['id'])#另一种写法
#获取属性

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
for li in soup.select('li'):
    print(li.get_text())
#获取内容

用get_text（）方法就能获取内容了。

与re库结合

for ul in div:
        print(ul)
        province = re.findall(r'<a href="(.*?)"',str(ul))

在ul里查找对应内容

BlackJayson

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python的BeautifulSoup库简单使用

声明本人也是自学python的小佬，因此博客内容仅供参考。用于提醒自己。长期更新。如有错误，欢迎指正。BeautifulSoup是一个结构简单，容易理解的网站解析库，中文含义美味的汤，使用该库的过程即可成为“煲汤”。本文章主要表述BeautifulSoup库的基本用法。引用BeautifulSoup库from bs4 import BeautifulSoup使用pip安装该库即可...
复制链接

扫一扫