从html文本中提取数据,转成列表形式

  • 使用BeautifulSoup模块,筛选HTML文中的数据
  • 参考网址BeautifulSoup
  • 参考代码如下(python2.7):
  • 该代码为html代码不全,在本地python可以使用‘lxml’解析,但是在centos默认的python上面,不可以用,如果代码是规范的HTML代码,可以使用’html.parser‘解析。
  • 如果HTML代码不规范,在centos上面可以使用xpath提取数据的方法。

# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
a='''
<table class="new_table"><tr><th>swap总量</th><th>已用swap</th><th>空闲swap</th><th>swap使用率</th><tr><td>4095M</td><td>0M</td><td>4095M</td><td>0%</td></tr></table>

'''
soup=BeautifulSoup(a, 'lxml')
trs=soup.find_all('tr')
th=[]
td=[]
for k in trs:
    h=k.find_all('th')
    d=k.find_all('td')
    if h:
        th.append(h)
    if d:
        td.append(d)
for i in range(len(th)):
    for j in range(len(th[i])):
        str=th[i][j].string
        th[i][j]=str

for x in range(len(td)):
    for j in range(len(td[x])):
        str=td[x][j].string
        td[x][j]=str

if th:
    for t in td:
        th.append(t)
else:
    th=td
print(th)
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值