谈及Pandas的read.xxx系列的函数,大家的第一反应会想到比较常用的pd.read_csv()和pd.read_excel()
但是大多数人估计没用过pd.read_html()这个函数。虽然它低调,但功能非常强大,用于抓取Table表格型数据时,简直是个神器。
是的,这个神器可以用来爬虫!
定 义
pd.read_html()这个函数功能强大,无需掌握正则表达式或者xpath等工具,短短的几行代码就可以轻松实现抓取Table表格型网页数据。
原 理
谈及Pandas的read.xxx系列的函数,大家的第一反应会想到比较常用的pd.read_csv()和pd.read_excel()
但是大多数人估计没用过pd.read_html()这个函数。虽然它低调,但功能非常强大,用于抓取Table表格型数据时,简直是个神器。
是的,这个神器可以用来爬虫!
定 义
pd.read_html()这个函数功能强大,无需掌握正则表达式或者xpath等工具,短短的几行代码就可以轻松实现抓取Table表格型网页数据。
原 理