pandas爬虫
pandas中的pd.read_html()这个函数,功能非常强大,可以轻松实现抓取Table表格型数据。
Table表格型数据网页结构
pandas适合抓取Table表格型数据,
以Table结构展示的表格数据,大致的网页结构如下:
<table class="..." id="...">
<thead>
<tr>
<th>...</th>
</tr>
</thead>
<tbody>
<tr>
<td>...</td>
</tr>
<tr>...</tr>
<tr>...</tr>
...
<tr>...</tr>