从html文本中提取数据，转成列表形式

最新推荐文章于 2024-03-19 20:34:59 发布

HMILY--WX

最新推荐文章于 2024-03-19 20:34:59 发布

阅读量2k

点赞数

分类专栏：后端

本文链接：https://blog.csdn.net/qq_42055440/article/details/83790645

版权

后端专栏收录该内容

9 篇文章 0 订阅

订阅专栏

使用BeautifulSoup模块，筛选HTML文中的数据
参考网址BeautifulSoup
参考代码如下（python2.7）：
该代码为html代码不全，在本地python可以使用‘lxml’解析，但是在centos默认的python上面，不可以用，如果代码是规范的HTML代码，可以使用’html.parser‘解析。
如果HTML代码不规范，在centos上面可以使用xpath提取数据的方法。


# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
a='''
<table class="new_table"><tr><th>swap总量</th><th>已用swap</th><th>空闲swap</th><th>swap使用率</th><tr><td>4095M</td><td>0M</td><td>4095M</td><td>0%</td></tr></table>

'''
soup=BeautifulSoup(a, 'lxml')
trs=soup.find_all('tr')
th=[]
td=[]
for k in trs:
    h=k.find_all('th')
    d=k.find_all('td')
    if h:
        th.append(h)
    if d:
        td.append(d)
for i in range(len(th)):
    for j in range(len(th[i])):
        str=th[i][j].string
        th[i][j]=str

for x in range(len(td)):
    for j in range(len(td[x])):
        str=td[x][j].string
        td[x][j]=str

if th:
    for t in td:
        th.append(t)
else:
    th=td
print(th)