久违了的Python系列回来啦~
Py4e也会更新,从实用性的角度出发,最近会先写一些和数据分析相关的笔记。
首先是Python数据处理系列,这篇文章的内容是数据的读取与存储。
# 导入numpy及pandas库
1. 查看数据
!
2. 读取数据
法一:df=pd.read_csv/json/excel(‘地址’)
法二:df=pd.read_table(‘地址’, sep=’分隔符’)
- 关于地址的写法
系统复制的地址用分隔的,而在python中有转义的含义,要把反斜杠换为正斜杠/或者在地址前面添加r防止地址被识别为转义符
这个点在用load data infile命令向mysql导入csv文件的时候也提到过
https://zhuanlan.zhihu.com/p/143654235zhuanlan.zhihu.com- 法一:df=pd.read_csv/json/excel(‘地址’)
- 法二:df=pd.read_table(‘地址’, sep=‘分隔符’)
这两种方法的区别就是法二pd.read_table()默认分隔符是制表符't',法一如df.pd.read_csv默认分隔符为','。
当文件的分隔符比较妖孽的时候,比如是?或者好几个空格之类的,两种方法都可以用sep='分隔符'来修改分割符。
#读取json文件
- 包含多个sheet的excel文件读取
包含多个sheet的excel文件,默认是读第一张sheet。可以通过sheet_name参数来选择读取的sheet,支持数字索引(也是从0开始)和sheet名两种写法。
# 读取excel文件里面的第二张sheet‘客户表’
- 其他参数:跟在文件地址后面直接加在括号里面就可以。这里选取了几个最常用的列出来,不再赘述,实际使用过程中有其他需要再搜索就好。
3. 存储数据
默认路径是存在jupyter代码所在的文件夹
df
4. Python数据库处理(以Mysql为例)
【pymysql库的安装】
Python使用pymysql库连接mysql,但是anaconda本身自带的100多个库里面并不包含pymysql,需要单独安装:
# 打开Anaconda Prompt(anaconda 3)
#导入numpy,pandas,pymysql库
【python连接数据库】
# 创建连接变量conn,记得启动mysql啊
以上参数不知道的话,可以打开Mysql命令行查询
-- db即数据库名,也就是Mysql里database/schema的名字
-- 查看charset字符集的编码方式
【python读取mysql数据】
df
创建sc表的代码在下面这个帖子的最后:
https://zhuanlan.zhihu.com/p/113173133zhuanlan.zhihu.com【python向mysql存储数据】
df
进入mysql命令行查看,sc3表已经储存在exercise数据库中了
上面主要是提供学习的思路框架,用Python进行数据的读取和存储并不限于以上情况,可以根据实际工作需要,使用上面的框架进行搜索。