pandas数据处理

宏辉

已于 2023-03-31 16:20:40 修改

阅读量110

点赞数

分类专栏： ML入门文章标签： pandas python 开发语言

于 2023-03-31 16:09:30 首次发布

本文链接：https://blog.csdn.net/weixin_42914989/article/details/129882425

版权

ML入门专栏收录该内容

2 篇文章 0 订阅

订阅专栏

panda数据处理

本文描述了panda数据处理的常用函数

菜鸟pandas教程

pd.read_html爬取数据

io ：str or file-like 接收网址、文件、字符串。网址不接受https，尝试去掉s后爬去 header：int or list-like or None 指定列标题所在的行
attrs : dict or None, optional 传递一个字典，用其中的属性筛选出特定的表格
parse_dates：bool 解析日期

本次以爬取网址数据为例，联权删

相对于java的jsoup解析爬取，pandas的read_html就显得优雅。
如果网站有table标签的数据，可以考虑用read_html抓取Table表格型数据。

    import pandas as pd
    df = pd.DataFrame()
    url = 'http://top.100ppi.com/zdb/detail-month---14.html'
    df = pd.concat([df,pd.read_html(url)[0]])
    print(df)
    df.to_excel('./data.xlsx')
    ```