内容介绍
在jupyter的上获取数据集的收集,进行数据表操作,提取数据进行函数处理,进行分组聚合与组内运算,处理与转换时间序列,创建透视与交叉表等…
目录
1.读写数据源
读写分离,基本的原理是让主数据库处理事务性增、改、删操作(INSERT、UPDATE、DELETE),而从数据库处理SELECT查询操作。数据库复制被用来把事务性操作导致的变更同步到集群中的从数据库。
1.1读取数据
利用read_table函数读取数据表的来源,encoding可以根据表格式更改为utf-8
import pandas as pd
cfcy = pd.read_table('musicdata.csv',sep=',',encoding='gbk',engine='python')
print('用read_csv读取表后显示信息:\n',cfcy)
1.2数据信息提取
主要是进行数据的长度,维度,现状,特征,以及部分数据的提取
print('维度:',cfcy.ndim)
print('形状:',cfcy.shape)
print('特征名称:',cfcy.columns)
print('前3行,前2列',cfcy.iloc[:3,:2])
1.3数据的函数取值
主要为求表格数据的最大值,最小值,均值,众数,分位数的获取(以房屋价格所在列为例)
print('房价最大值:{}'.format(max(list(cfcy['房屋价格']))))
print('房价最小值:{}'.format(min(list(