Pandas作为数据科学领域鳌头独占的利器,有着丰富多样的函数,能实现各种意想不到的功能。其中的read_html()函数,可以爬取静态网页中的表格。
-read_html() 函数,可免去写爬虫的烦恼,自动抓取静态网页中的表格。
简单用法:pandas.read_html(url)
主要参数:
io:接收网址、文件、字符串
header:指定列名所在的行
encoding:The encoding used to decode the web page
attrs:传递一个字典,用其中的属性筛选出特定的表格
只需要传入url,就可以抓取网页中的所有表格,抓取表格后存到列表
欢迎大家转发,一起传播知识和正能量,帮助到更多人。辛苦大家转发时注明出处(也是咱们公益编程交流群的入口网址):http://liujingwei.cn