Python 爬虫 —— 使用 pandas

最新推荐文章于 2023-10-09 13:21:01 发布

五道口纳什

最新推荐文章于 2023-10-09 13:21:01 发布

阅读量1.1k

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/lanchunhui/article/details/51082414

版权

爬虫专栏收录该内容

12 篇文章 0 订阅

订阅专栏

1. 使用 pd.read_html

pd.read_html：返回 list of dataframes

df.to_csv：保存到csv文件

只有第一个网页的内容才保留其 header

import pandas as pd
import csv

num_pages = 179
for i in range(1, num_pages+1):
    print('{}/{}'.format(i, num_pages))
    tb = pd.read_html('http://s.askci.com/stock/a/'
                      '?reportTime=2017-12-31&pageNum=%s' % (str(i)))[3]
    tb.to_csv(r'listed_company.csv', mode='a', encoding='utf-8', 
    			header=1 if i == 1 else 0, index=0)