python3 beautifulsoup 表格_[Python3爬虫]Beautiful Soup解析库

weixin_39554290

于 2020-12-24 11:29:08 发布

阅读量569

点赞数

文章标签： python3 beautifulsoup 表格

本文链接：https://blog.csdn.net/weixin_39554290/article/details/111958146

版权

解析库与Beautiful Soup

通过request库，我们已经能够抓取网页信息了，但要怎么提取包含在Html代码里面的有效信息呢？谈到匹配有效信息你肯定会想到正则表达式，这里就不讨论了，实际上关于正则表达式已经可以写一本书了，并且由于网页特殊的层级结构，也没必要使用正则表达式。python提供了更好的html和xml的解析库Beautiful Soup 和XPath等。

什么是Beautiful Soup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间

———Beautiful Soup中文文档

安装

pip3 install beautifulsoup4

学习准备

为了学习和测试Beautiful Soup，我写了一个简单的程序框架,包含3个函数获取页面，解析页面，和主函数，测试的时候只要修改解析函数的部分代码就可以了

import requests

from bs4 import BeautifulSoup

def getHtml(url): #获取网页内容

try:

r = requests.get(url,timeout = 30)

r.encoding = r.apparent_encoding; #设置编码格式为原网页的编码格式,避免乱码

return r.text

except:

return ""

def soupHtml(html): #解析网页内容

print(html)

soup = BeautifulSoup(html,'lxml')

# 解析代码

if __name__ == '__main__':

url = "http://www.baidu.com"

html = getHtml(url)

soupHtml(html)

可以看到爬取的是百度的首页，之后的代码，添加进去就能运行了

基本用法

BeautifulSoup(content,"html.parser"/"lxml")

两个参数cnetent表示待解析的网页内容，后面的参数可以理解为待解析的格式。lxml解析器有解析HTML和XML的功能，而且速度快，容错能力强，所以推荐使用它。

选择元素

根据标签名来选择元素

soup = BeautifulSoup(html,'lxml')

print(soup.title)

print(soup.head)

print(soup.div)

>>>

百度一下，你就知道

连带标签一起输出，当有多个标签匹配时，只返回第一个

获取内容

标签的string方法

soup = BeautifulSoup(html,'lxml')

print(soup.title.string)

print(soup.head.string)

print(soup.div.string)

>>> 百度一下，你就知道

获取标签的属性

html中的标签有很多属性，例如，id,name,class,href等等，可以通过attrs获取标签的属性

soup = BeautifulSoup(html,'lxml')

print(soup.link.attrs)

>>> {'rel': ['stylesheet'], 'type': 'text/css', 'href': 'http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css'}

获取属性的值

通过返回的值，可以知道它是字典类型的结构，这样就可以通过键获取他的值

soup = BeautifulSoup(html,'lxml')

print(soup.p)

>>>

把百度设为主页关于百度 About Baidu

print(soup.p.attrs)

>>> {'id': 'lh'}

print(soup.p.attrs['id'])

>>>lh

关联选择

在做选择的时候，有时候不能做到一步就选到想要的节点元素，需要先选中某一个节点元素，然后以它为基准再选择它的子节点、父节点、兄弟节点等

1.子节点和子孙节点

获取子节点 contents,children

for i,content in enumerate(soup.head.contents):

print(i,content)

for i,child in enumerate(soup.head.children):

print(i,child)

>>>0

百度一下，你就知道

输出head标签的子节点，contents和children是等效的

子孙节点

如果要得到所有的子孙节点的话，可以调用descendants属性

for i,child in enumerate(soup.body.descendants):

print(i,child)

2.父节点和祖先节点

如果要获取某个节点元素的父节点，可以调用parent属性，获取其祖先节点调用其parents属性。

3.兄弟节点

next_sibling和previous_sibling分别获取节点的下一个和上一个兄弟元素，next_siblings和previous_siblings则分别返回所有前面和后面的兄弟节点的生成器。

查询方法

1.find_all()

find_all查询所有符合条件的元素。给它传入一些属性或文本，就可以得到符合条件的元素了。

API接口如下:

find_all(name , attrs , recursive , text , **kwargs)

跟据名称查找

for i,input in enumerate(soup.fiind_all(name='input')):

print(i,input)

>>> 0

找出所有的input标签

根据属性查找

for i,tag in enumerate(soup.find_all(attrs={'class':'mnav'})):

print(i,tag)

>>> 0 糯米

1 新闻

2 hao123

3 地图

4 视频

5 贴吧

6 登录

7 设置

找出所有class属性为"mnav"的标签

根据文本查找

import re

# 导入正则匹配库

print(soup.find_all(text=re.compile('百')))

['百度一下，你就知道', '把百度设为主页', '关于百度', '使用百度前必读']

2.find()

find()方法与find_all(),方法一致，只是find()返回的是单个元素，也就是第一个匹配的元素，而前者返回的是所有匹配的元素组成的列表。这里就不讨论了

CSS选择器

就是专门用于筛选指定样式的标签,通过select方法

print(soup.select('.mnav'))

for i,tag in enumrate(soup.select('.mnav')):

print(i,tag)

>>>0 新闻

1 hao123

2 地图

3 视频

4 贴吧

通过结果我们发现其实完全可以通过class属性来查找,应为通过CSS来查找本质就是通过class属性来查找

程序实现

爬取最好大学网2018年排名信息,并格式化输出

html代码分析

清华大学

北京

95.3

100.0

97.50%

1182145

44730

1.447

1556

121

1586283

500525

1.所有大学信息包含在tbody的子标签中，即整个表格

2.每一所大学在一个tr标签中，即表格中的一行

3.各大学的排名，名称，综合评分,在td标签中,即表格的一列

request + BeautifkuSoup实现

import requests

from bs4 import BeautifulSoup

import bs4

def getUnivtext(url):

try:

r=requests.get(url,timeout=30);

r.raise_for_status()

r.encoding=r.apparent_encoding;

return r.text

except:

return ""

def fillUnivList(ulist,html):

soup=BeautifulSoup(html,"html.parser")

for tr in soup.find('tbody').children:

if isinstance(tr,bs4.element.Tag):#bs4库里的标签类型

tds=tr('td')

ulist.append([tds[0].string,tds[1].string,tds[3].string])

def printUnivList(ulist,num):

print("{:^10}\t{:<10}\t{:<10}\t".format("排名","大学名称","评分"))

for i in range(num):

u=ulist[i]

print("{:^10}\t{:^6}\t{:^10}\t".format(u[0],u[1],u[2]))

if __name__ == '__main__':

Uinfo=[]

url="http://www.zuihaodaxue.com/zuihaodaxuepaiming2018.html"

html=getUnivtext(url)

fillUnivList(Uinfo,html)

printUnivList(Uinfo,310)

运行效果

40eda76b1fc5

pic1.png

投喂我

写文不易，如果本文对你有帮助，别忘了投喂我哦

关于作者

weixin_39554290

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python3 beautifulsoup 表格_[Python3爬虫]Beautiful Soup解析库

解析库与Beautiful Soup通过request库，我们已经能够抓取网页信息了，但要怎么提取包含在Html代码里面的有效信息呢？谈到匹配有效信息你肯定会想到正则表达式，这里就不讨论了，实际上关于正则表达式已经可以写一本书了，并且由于网页特殊的层级结构，也没必要使用正则表达式。python提供了更好的html和xml的解析库Beautiful Soup 和XPath等。什么是Beautiful...
复制链接

扫一扫