pandas的使用
pandas的使用
一匹脱缰的野马
一匹脱缰的野马
展开
-
DataFrame的属性
自己创建DataFrame类型的dfimport pandas as pd#自己创建dfdf = pd.DataFrame({'col1':[0,1,2], 'col2':['zs','ls','ww'], 'col3':[3.14,6.28,9.12]}, index=[...原创 2019-09-11 11:42:56 · 669 阅读 · 0 评论 -
缺失值处理方法总结
加载数据import pandas as pdimport numpy as np#加载数据data = pd.read_excel('./qs.xlsx')print(data)如何确定数据里包含缺失值---缺失值检测print(data.isnull()) #缺失地方的值为Trueprint(data.notnull()) #不缺失地方的值为True...原创 2019-09-16 16:14:33 · 1345 阅读 · 0 评论 -
异常值处理
根据正态分布处理异常数据根正据态分布得出99.73%的数据都在(u-3sigma,u+3sigma)之间,认为超出这个区间的值为异常值,我们按照这个原则提出异常值。设置函数返回正确的数据def three_sigma(data): ''' 进行3sigma剔除 :param data:传入的数据 :return:剔除之后的数据,或者剔除异常值...原创 2019-09-16 19:22:07 · 794 阅读 · 0 评论 -
数据的相关性
对数据进行去重加载数据detail = pd.read_excel("./meal_order_detail.xlsx")print("detail :\n",detail)对amounts 进行去重,拿到菜品的单价数据来评估这家餐厅的消费水平预估。相关性在[-1,1]之间,0<corr是正相关,0>corr是负相关。method默认是皮尔逊相关系数,相...原创 2019-09-16 20:34:10 · 699 阅读 · 0 评论 -
去重与去空案例
数据的去重案例drop_duplicates,只能按列不能按行去重去除数据里面所有NA ,或者数据单一的列。使用的方法为循环,对所有的列进行判断。columns = detail.columns#取出所有的列drop_list = []for column in columns: # print(column) # 进行去重,在一列下,数据一样的进行去重...原创 2019-09-16 21:33:26 · 268 阅读 · 0 评论 -
数据填充
excel中sheet1和sheet2的数据如下使用combine_first来进行数据合并import pandas as pd# 加载数据data_1 = pd.read_excel("./数据填充.xlsx",sheetname=0)data_2 = pd.read_excel("./数据填充.xlsx",sheetname=1)print("data_...原创 2019-09-16 21:50:18 · 185 阅读 · 0 评论 -
dataframe数据拼接
准备数据import pandas as pddata_1 = pd.read_excel("concat数据拼接.xlsx",sheetname=0)data_2 = pd.read_excel("concat数据拼接.xlsx",sheetname=1)print(data_1)print(data_2)两份数据如下利用concat进行拼接在列的方向上...原创 2019-09-16 22:53:13 · 2273 阅读 · 0 评论 -
标准化数据
离差标准化离差标准化,将数据转化到0到1之间。离差标准化容易受到异常点影响,不常用。def min_max_sca(data): ''' 离差标准化 :param data:传入的数据 :return:标准化之后的数据 ''' data = (data-data.min())/(data.max()-data.min()) r...原创 2019-09-17 10:31:45 · 2097 阅读 · 0 评论 -
数据离散化
使用get_dummies将类别型数据转化为哑变量矩阵加载数据,并将数据离散化detail = pd.read_excel('./meal_order_detail.xlsx')# print(detail.loc[:,'dishes_name'])res = pd.get_dummies(detail.loc[:,'dishes_name'],prefix='菜品',pref...原创 2019-09-17 21:15:12 · 910 阅读 · 0 评论 -
pandas连锁超市数据处理案例
加载数据import pandas as pd#加载数据order = pd.read_csv('./order.csv',encoding='ansi')print(order)print(order.columns)哪些类别的商品比较畅销?异常数据的处理#剔除销量小于0的数据bool_id = order.loc[:,'销量'] > 0da...原创 2019-09-12 22:16:53 · 674 阅读 · 0 评论 -
pandas透视表与交叉表
pivot_table透视表透视表是一种plus版的分组聚合,透视表的传入数据的参数指标如下:data是dataframe数据values是最终统计指标针对的对象index 按照index进行行分组columns 按照columns进行分组aggfunc 是对主题进行什么指标的统计margins=True 是否在数据表的边缘新添加一列数据。import pandas...原创 2019-09-12 21:47:24 · 295 阅读 · 0 评论 -
pandas计算店家的每日营业额示例
获取时间day属性,生成一个新的列detail.loc[:,'day'] = [i.day for i in detail.loc[:,'place_order_time']]新建价格的列detail.loc[:,'price'] = detail.loc[:,'counts']*detail.loc[:,'amounts']按天分组求每日的营业额res ...原创 2019-09-12 21:03:31 · 1849 阅读 · 0 评论 -
认识pandas
pandas简介pandas主要用来进行数据处理的库,里面不仅包含了数据处理,甚至还有,统计分析,相关计算,其内部封装了numpy相关组件。pandas与numpynumpy核心ndarray---多维数组pandas 做数据处理的核心series:一维结构(了解)dataframe:二维结构(重点)pannel:三维结构(知道--基本上见不到)拼接数组如下...原创 2019-09-11 13:49:18 · 182 阅读 · 0 评论 -
pandas的读取与存储
read_table方式打开文件把文件以记事本方式打开,然后另存为,另存为的时候可以查看到编码格式。默认逗号分隔。data = pd.read_table(r'./meal_order_info.csv',encoding='gbk',sep=',') #默认逗号分隔read_csv方式打开文件csv默认逗号分隔'''header=info 默认自动设置列名,自动...原创 2019-09-11 15:15:12 · 268 阅读 · 0 评论 -
pandas查找excel数据--数据索引
读取excel中的数据import pandas as pddetail = pd.read_excel('./meal_order_detail.xlsx')# print(detail)# print(detail.shape) #(2779, 19)# print('列索引:',detail.columns)'''Index(['detail_id', 'order_i...原创 2019-09-11 19:03:54 · 6011 阅读 · 0 评论 -
pandas修改excel数据
加载excel数据并读取import pandas as pdusers = pd.read_excel('./users.xlsx')print('users的列名称:',users.columns)将sex列所有为男的数据改成'nan'将sex列中所有为男的数据改成True,其他的是False,然后series的形式返回res = users.loc[:,'...原创 2019-09-11 19:41:29 · 6079 阅读 · 0 评论 -
pandas增加与删除数据
增加一列数据直接增加一列数据,给新的一列数据赋值import pandas as pd#加载数据users = pd.read_excel('./users.xlsx')#给users的用户增加一个next_year_age列users.loc[:,'next_year_age'] = users.loc[:,'age']+1#给df增加一列,直接添加列名,给列明赋值pr...原创 2019-09-11 20:26:29 · 232 阅读 · 0 评论 -
pandas数值型数据和非数值型数据统计
对单列数据进行统计加载数据import pandas as pddetail = pd.read_excel('./meal_order_detail.xlsx')常见的数值统计的方法如下:统计detail中的,单价相关指标print('最大值',detail.loc[:,'amounts'].max())print('最小值',detail.loc[:,'amo...原创 2019-09-12 11:42:10 · 5316 阅读 · 0 评论 -
pandas时间数据
关于时间的数据类型datatime64[ns]是numpy中的数据类型,Timestamp是pandas默认的时间点类型,DatetimeIndex是pandas默认支持的时间序列结构。可以通过to_datatime或者DatetimeIndex将时间数据转化成pandas默认支持的时间数据传入的数据可以是单个数据,数据是Timestamp格式。也可以是一个列表,数据格式会转变成...原创 2019-09-12 19:40:42 · 526 阅读 · 0 评论 -
pandas分组聚合
加载数据import pandas as pdimport numpy as npusers = pd.read_excel('./users.xlsx')groupby指定分组的列可以是单列,也可以是多列根据班级分组,统计学员的班级的平均年龄res = users.groupby(by='ORGANIZE_NAME')['age'].mean()按照ORG...原创 2019-09-12 20:45:34 · 220 阅读 · 0 评论 -
银行坏账数据分析
加载数据import pandas as pdimport numpy as npdata = pd.read_csv('loan.csv',encoding='ansi')print(data)好坏用户,0代表信用好用户,1代表信用坏用户。data = pd.read_csv('loan.csv',encoding='ansi')print(data.isnu...原创 2019-09-17 22:22:02 · 886 阅读 · 0 评论