python pandas的read_html方法爬取网页表格

最新推荐文章于 2024-08-02 15:53:32 发布

ZLuby

最新推荐文章于 2024-08-02 15:53:32 发布

阅读量3.5k

点赞数 2

分类专栏： python 文章标签： python爬取网页表格

本文链接：https://blog.csdn.net/weixin_38300566/article/details/103805555

版权

python 专栏收录该内容

39 篇文章 10 订阅

订阅专栏

要爬取的网页：网址·http://www.cnipa.gov.cn/zfwq/zftjyfx/1144737.htm

长这样的表格

爬取以上表格，保存为CSV格式。

代码实现：

import pandas as pd

url ='http://www.cnipa.gov.cn/zfwq/zftjyfx/1144737.htm'
# 找到所需爬取的表格  [1]代表取第二个表格
tb = pd.read_html(url)[1]
#保存为csv文件
tb.to_csv('2019年11月各省专利行政执法案件数据统计.csv', encoding='utf-8', header=0,index=0)

生成的csv如下：