pandas:读取各类文件方法以及爬虫时json数据保存

文件的读取与写入

| 常用读文件方法 | 说明             |
| -------------- | ---------------- |
| read_csv       | 读取CSV文件      |
| read_excel     | 读取Excel文件    |
| read_html      | 读取网页HTML文件 |
| read_table     | 通用读取方法     |

| 常用写文件方法 | 说明        |
| -------------- | ----------- |
| to_csv         | 写csv文件   |
| to_excel       | 写Excel文件 |

1、读取文件常用的参数


pandas.read_csv(
    filepath_or_buffer=None,
    sep=',',
    delimiter=None,
    header=None,
    names=None,
    index_col=None,
    usecols=None,
    skiprows=None,
    na_values=None,
    nrows=None,
    chunksize=None,
    encoding=None,
):
 

| 参数               | 说明                                                         |
| ------------------ | ------------------------------------------------------------ |
| filepath_or_buffer | 读取文件的路径或对象                                         |
| sep/delimiter      | 输出文件的字段分隔符, 默认字符","                            |
| header             | 默认为'infer',读取第一行作为列名,也可以为None,使用默认列索引 |
| names              | 自定义列名/列索引                                            |
| index_col          | 选择一列作为行索引,可以输入默认列索引 也可以使用自定义的列索引/列名 |
| usecols            | 只读取选中的列                                               |
| skiprows           | 跳过行读取                                                   |
| na_values          | 个性化数据,将指定的数据变为缺失值NaN                         |
| nrows              | 数据按指定行显示                                             |
| chunksize          | 数据按指定行进行分块                                         |
| encoding           | 设置编码格式                                                 |

注意事项:

1、一般情况下我们用utf-8的编码进行保存,如果出现中文编码错误,则可以依次换用gbk,gb2312,gb18030等, 一般总能成功的

 2、写入文件参数

```
df.to_csv(
    path_or_buf=None,
    sep=',',
    columns=None,
    header=True,
    index_lable=None,
    index=True,
    encoding=None,)
```

| 参数        | 说明                               |
| ----------- | ---------------------------------- |
| path_or_buf | 写入文件的路径或对象               |
| sep         | 输出文件的字段分隔符, 默认字符","  |
| columns     | 空值写入后的顺序,也可选列写入      |
| header      | 布尔值,默认为True,写入列名称(索引) |
| index_label | 选择列作为 行索引                  |
| index       | 布尔值,默认为True,写入行名称(索引) |
| encoding    | 设置写入的编码格式                 |

excel表格读取写入特点

所有的读取和写入方法的参数通用,唯独excel表格有几个不一样的点

1、写入excel文件需要依赖模块-openpyxl

```python
安装: pip install openpyxl
```

2、读取excel文件需要依赖模块-xlrd

```
安装: pip install xlrd


df.to_excel(
        excel_writer,
        sheet_name="Sheet1",
        columns=None,
        header=True,
        index=True,
        index_label=None,
        encoding=None,
    )
```

| 特有的参数   | 说明                |
| ------------ | ------------------- |
| excel_writer | ExcelWriter目标路径 |
| sheet_name   | excel工作表名命名   |

- read_excel


pandas.read_excel(
    io,
    sheet_name=0,
    header=0,
    names=None,
    index_col=None,
    usecols=None,
    skiprows=None,
    nrows=None,
    na_values=None,
)
```

| 特有的参数 | 说明                                                         |
| ---------- | ------------------------------------------------------------ |
| io         | excel路径                                                    |
| sheet_name | 默认为0,多工作表读取使用sheetname=[0, 1],若sheetname=None是返回全表 |

当学习了读取和写入之后,就可以将爬虫的数据转为dataframe,使用dataframe写入的方式进行文件保存

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值