Python数据分析篇
文章平均质量分 50
小力丸
数据分析,94年,摩羯座,软妹子
展开
-
如何在Python中实现RFM分析
RFM分析RFM分析是根据客户活跃程度和交易金额贡献,进行客户价值细分的一种方法;可以通过R,F,M三个维度,将客户划分为8种类型。RFM分析过程1.计算RFM各项分值R_S,距离当前日期越近,得分越高,最高5分,最低1分F_S,交易频率越高,得分越高,最高5分,最低1分M_S,交易金额越高,得分越高,最高5分,最低1分原创 2017-07-14 15:33:13 · 15269 阅读 · 22 评论 -
如何在Python中实现矩阵分析
矩阵分析根据事物(如产品,服务等)的两个重要属性(指标)作为分析依据,进行关联分析,找出解决问题的一种分析方法。如何使用Python进行矩阵分析呢各个省份的GDP-人口矩阵分析,代码实现如下:import pandasimport matplotlibimport matplotlib.pyplot as pltmainColor = (42/256, 87/256, 14原创 2017-07-14 15:18:21 · 1931 阅读 · 0 评论 -
Python中的虚拟变量(dummy variables)
虚拟变量(dummy variables)虚拟变量,也叫哑变量和离散特征编码,可用来表示分类变量、非数量因素可能产生的影响。① 离散特征的取值之间有大小的意义例如:尺寸(L、XL、XXL)离散特征的取值有大小意义的处理函数mappandas.Series.map(dict)参数 dict:映射的字典② 离散特征的取值之间没有大小的意义pandas原创 2017-07-14 14:26:39 · 36904 阅读 · 2 评论 -
Python中的相关分析correlation analysis
相关分析(correlation analysis)研究两个或两个以上随机变量之间相互依存关系的方向和密切程度的方法。线性相关关系主要采用皮尔逊(Pearson)相关系数r来度量连续变量之间线性相关强度;r>0,线性正相关;rr=0,两个变量之间不存在线性关系,并不代表两个变量之间不存在任何关系。相关分析函数DataFrame.corr()Series.corr原创 2017-07-14 15:13:38 · 47468 阅读 · 0 评论 -
Python中的交叉分析pivot_table
4、交叉分析通常用于分析两个或两个以上,分组变量之间的关系,以交叉表形式进行变量间关系的对比分析;从数据的不同维度,综合进行分组细分,进一步了解数据的构成、分布特征。交叉计数函数:pivot_table(values,index,columns,aggfunc,fill_value)参数说明:values:数据透视表中的值index:数据透视表中的行columns:原创 2017-07-14 14:55:01 · 5294 阅读 · 0 评论 -
Python中的分布分析cut+groupby
分布分析(cut+groupby)根据分析目的,将数据(定量数据)进行等距或者不等距的分组,进行研究各组分布规律的一种分析方法。import numpyimport pandasdata = pandas.read_csv( 'C:/Users/ZL/Desktop/Python/5.3/data.csv' )aggResult = data.groupby原创 2017-07-14 14:47:44 · 7786 阅读 · 0 评论 -
Python中的分组分析groupby
2、分组分析根据分组字段,将分析对象划分成不同的部分,以进行对比分析各组之间差异性的一种分析方法。定性分组定量分组分组统计函数groupby(by=[分组列1,分组列2,...])[统计列1,统计列2,...].agg({统计列别名1:统计函数1,统计列别名2:统计函数2,...})参数说明:by 用于分组的列中括号 用于统计的列agg原创 2017-07-14 14:40:11 · 2490 阅读 · 0 评论 -
Python中时间格式数据的处理
5.1 时间转换时间转换是指字符型的时间格式数据,转换成为时间型数据的过程。一般从csv导入过来的文件,时间都保存为字符型格式的,需要转换。时间转换函数:datatime=pandas.to_datetime(dataString,format)5.2 时间格式化时间格式化是指将时间型数据,按照指定格式,转为字符型数据。时间格式化函数:dateTimeF原创 2017-07-14 14:01:55 · 12635 阅读 · 0 评论 -
Python中如何进行数据分组
数据分组根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间进行研究,以揭示其内在联系和规律性。cut 函数:cut(series,bins,right=True,labels=NULL)① series 需要分组的数据② bins 分组的划分数组③ right 分组的时候,右边是否闭合,默认为闭合True④ labels 分组的原创 2017-07-14 13:57:58 · 11011 阅读 · 0 评论 -
Python中的数据标准化
数据标准化数据标准化是指将数据按比例缩放,使之落入到特定区间。为了消除量纲的影响,方便进行不同变量间的比较分析。0-1标准化:x=(x-min)/(max-min)Python代码实现:import pandasdata = pandas.read_csv( 'D:\\PDA\\4.14\\data.csv')data['scale'] = round原创 2017-07-14 13:45:58 · 3043 阅读 · 0 评论 -
Python中如何实现分层抽样
Python中如何实现分层抽样在我们日常的数据分析工作中,常用到随机抽样这一数据获取的方法。如果我们想在一个大的数据总体中,按照数据的不同分类进行分层抽样,在Python中如何用代码来实现这一操作呢。下面我们要实现分层抽样操作的应用背景:随机抽取2017年重庆市不同区域高中学生的高考成绩。这里数据总体为2017年重庆市所有区域高中的学生高考成绩。分层抽样按照区域分类。设原创 2017-07-14 08:41:31 · 21483 阅读 · 1 评论 -
Python中字段抽取、字段拆分、记录抽取
2.1 字段抽取字段抽取是根据已知列数据的开始和结束位置,抽取出新的列字段截取函数:slice(start,stop)注意:和数据结构的访问方式一样,开始位置是大于等于,结束位置是小于。from pandas import read_csvdf = read_csv( 'D:\\PDA\\4.6\\data.csv')#默认将电话号码按照数值型来处理了,需要先转原创 2017-07-13 21:58:17 · 6647 阅读 · 0 评论 -
Python中重复值、缺失值、空格值处理
1.1 重复值处理把数据结构中,行相同的数据只保留一行。函数语法:drop_duplicates()删除重复值newdf=df.drop_duplicates()from pandas import read_csvdf = read_csv('D://PDA//4.3//data.csv')df#找出行重复的位置dIndex = df.duplicated()原创 2017-07-13 21:47:22 · 3017 阅读 · 0 评论 -
Python中的结构分析pivot_table
结构分析是在分组以及交叉的基础上,计算各组成部分所占的比重,进而分析总体的内部特征的一种分析方法。这个分组主要是指定性分组,定性分组一般看结构,它的重点在于占总体的比重。我们经常把市场比作蛋糕,市场占有率就是一个经典的应用。另外,股权也是结构的一种,如果你的股票比率大于50%,那就是有绝对的话语权。import numpyimport pandasdata = panda原创 2017-07-14 15:57:23 · 3689 阅读 · 0 评论