pandas可以通过read_html()从网上读取表格类数据
HTML中,<table>标签可以定义一个表格:
<thead>标签用于定义表头
<tbody>用于定义表格的主题
<tbody>中的<tr>定义一行
<tbody>中的<th>定义一个单元格
read_html()中的参数设置:
1、io设置:
io可以时本地HTML文档的路径或网址
2、match
match值是一个正则表达式,只有符合该正则表达式的字符串的表格会被返回,否则会报错
3、flavor
flavor时指定网页源代码的解析器,一般默认为lxml
4、header
header用于指定表格中的一行或几行作为表格的列标签,默认时None参数可以时单个整数或整数组成的列表
5、index_col
header用于指定表格中的一行作为表格的行标签,默认为None
6、encoding
encoding用于指定表格数据及解码方式,但一般不需要指定