要爬取的网页:网址·http://www.cnipa.gov.cn/zfwq/zftjyfx/1144737.htm
长这样的表格
爬取以上表格,保存为CSV格式。
代码实现:
import pandas as pd
url ='http://www.cnipa.gov.cn/zfwq/zftjyfx/1144737.htm'
# 找到所需爬取的表格 [1]代表取第二个表格
tb = pd.read_html(url)[1]
#保存为csv文件
tb.to_csv('2019年11月各省专利行政执法案件数据统计.csv', encoding='utf-8', header=0,index=0)
生成的csv如下: