panda数据处理
本文描述了panda数据处理的常用函数
pd.read_html爬取数据
io :str or file-like 接收网址、文件、字符串。网址不接受https,尝试去掉s后爬去 header:int or list-like or None 指定列标题所在的行
attrs : dict or None, optional 传递一个字典,用其中的属性筛选出特定的表格
parse_dates:bool 解析日期
本次以爬取网址数据为例,联权删
相对于java的jsoup解析爬取,pandas的read_html就显得优雅。
如果网站有table标签的数据,可以考虑用read_html抓取Table表格型数据。
import pandas as pd
df = pd.DataFrame()
url = 'http://top.100ppi.com/zdb/detail-month---14.html'
df = pd.concat([df,pd.read_html(url)[0]])
print(df)
df.to_excel('./data.xlsx')
```