pandas.read_html()读取网页表格类数据

目标网站
http://www.tianqihoubao.com/lishi/wanzhou/month/201101.html

表格类数据格式样子

大致网络结构

<table class="..." id="..." ...>
	 ...
     <tbody>
        <tr>
            <td>...</td>
        </tr>
        <tr>...</tr>
        <tr>...</tr>
        <tr>...</tr>
        <tr>...</tr>
        ...
        <tr>...</tr>
        <tr>...</tr>        
    </tbody>
</table>

<table></table> 表示整体表格
 <tr>...</tr>表示一行
 <td>...</td>表示某一格的数据

代码

从HTML文件读取数据

如上所示,Pandas可以直接用DataFrame生成HTML表格,同样可以读取HTML文件。read_html()函数解析HTML页面,寻找HTML表格。如果找到,就将其转换为可以直接用于数据分析的DataFrame对象。

即使只有一个表格,read_html()函数也会返回一个DataFrame列表

import pandas as pd

dates=[201901,201902,201903,201904,201905,201906,201907,201908,201909,201910,201911,201912]
print(dates)# 构造出日期序列  便于之后构造url

for i in range(len(dates)):
    df = pd.read_html(f'http://www.tianqihoubao.com/lishi/wanzhou/month/{dates[i]}.html', encoding='gbk', header=0)[0]
    print(df)
    if i == 0:
        df.to_csv('2019年万州天气预报数据.csv', mode='a+', index=False)     # mode='a+'追加写入
        i += 1
    else:
        df.to_csv('2019年万州天气预报数据.csv', mode='a+', index=False, header=False)
print('结束')

换一个网站
http://data.eastmoney.com/hsgt/top10.html

import pandas as pd
df = pd.read_html(f'http://data.eastmoney.com/hsgt/top10.html', encoding='gbk')[0]
print(df)

一些复杂网站无法读取。
能读取就读,不能读就尝试爬虫吧
在这里插入图片描述

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

总裁余(余登武)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值