数据挖掘
caroline_richboom
大数据小白的自学之路
展开
-
初学数据挖掘——数据探索(七):python中主要的数据探索函数之拓展统计特征函数
pandas库中累积计算统计特征函数:1、cumsum()依次给出前1,2,…,n个数的和2、cumprod()依次给出前1,2,…,n个数的积3、cummax()依次给出前1,2,…,n个数的最大值4、cummin()依次给出前1,2,…,n个数的最小值注意:cum系列函数是作为DataFrame或series对象的方法而出现的命名格式:D.cumsm()pandas库中滚动计算统计特征函数:1、rolling_sum()计算数据样本的总和(按列计算)2、rolling_me原创 2020-12-08 09:41:33 · 895 阅读 · 0 评论 -
初学数据挖掘——数据探索(七):python中主要的数据探索函数之常用统计特征函数
前面已经提过:python中主要用于数据探索的库是pandas(数据分析)和matplotlib(数据可视化)。了解详情可见:Python中的数据可视化工具与方法——常用的数据分析包numpy、pandas、statistics的理解实现和可视化工具matplotlib的使用pandas中提供了大量统计特征函数和统计绘图函数,因绘图函数依赖于matplotlib,所以往往会与matplotlib结合使用。pandas常用统计特征函数1、sum()计算数据样本的总和(按列计算)语法:sum(ite原创 2020-11-30 10:10:21 · 925 阅读 · 0 评论 -
初学数据挖掘——数据探索(六):数据特征分析之相关性分析
相关性分析即分析连续变量之间线性相关程度的强弱,并用合适的统计量或统计图表示出来的过程。如现在想要分析得到不同菜品之间的相关关系,则可以通过分析这些菜品日销售量之间的相关性来得到。代码如下:#导入相关包from __future__ import print_functionimport pandas as pdcatering_sale = './data/catering_sale_all.xls' # 餐饮数据,含有其他属性data = pd.read_excel(catering_原创 2020-11-05 09:07:01 · 2873 阅读 · 0 评论 -
初学数据挖掘——数据探索(五):数据特征分析之周期性分析
周期性分析:周期性分析是探索某个变量是否随着时间的变化而呈现出某种周期变化趋势。时间尺度:较长:年度周期性趋势、季节性周期性趋势;较短:月度周期性趋势、周度周期性趋势、天度周期性趋势、小时度周期性趋势。实例:某单位日用电量的预测分析:import pandas as pdimport matplotlib.pyplot as pltdf_normal = pd.read_csv("./data/user.csv") #读入数据plt.figure(figsize=(8,4))plt.原创 2020-11-02 08:55:03 · 5165 阅读 · 1 评论 -
初学数据挖掘——数据探索(四):数据特征分析之统计量分析
用统计指标对定量数据进行统计分析,常从集中趋势和离中趋势两个方面分析。一、集中趋势度量1、均值:所有数的平均数2、中位数:将一组数据从小到大排序,位于中间的那个数3、众数:数据集中出现最频繁的值二、离中趋势度量1、极差:最大值与最小值之差2、标准差:度量数据偏离均值的程度3、变异系数:度量标准差相对于均值的离中程度4、四分位数间距:上四分位数与下四分位数之差,包含了全部观测值的一般。其值越大,说明数据的变异程度越大。# 餐饮销量数据统计量分析import pandas as pd原创 2020-10-27 09:45:37 · 1149 阅读 · 1 评论 -
初学数据挖掘——数据探索(三):数据特征分析之对比分析
一、对比分析:对比分析是将两个相互联系的指标进行比较,从数量上展示和说明研究对象的各种关系(规模的大小、水平的高低、速度的快慢等)是否协调。分析其中的差异,从而揭示这些事物代表的发展变化情况以及变化规律。二、对比分析的原则:对比对象相似:对比对象越相似,就越具有可比性。对比指标同质三、对比分析的特点:简单:因为与其他分析比较对比分析操作步骤少,不需要太复杂的计算。直观:是指能够直接看出事物的变化或差距,非常明显的知晓对比数据的相同或不同。量化:是指能够准确表示出变化或差距是多少,然后根原创 2020-10-27 09:26:20 · 2243 阅读 · 0 评论 -
初学数据挖掘——数据探索(二):数据特征分析之分布分析
一、分布分析分布分析能揭示数据的分布特征和分布类型。对于定量数据:可以做出频率分布表、绘制频率分布直方图、绘制茎叶图进行直观分析;对于定性分析:可以画出饼图和条形图直观的显示其分布情况。1、定量数据的分布分析一般步骤:求极差 :极差 = 最大值 - 最小值决定组距和组数:组距是每个区间的长度,组数 = 值域 / 组距决定分点:分点是指每个区间的端点,这一步是要确定每组的起点和终点列出频率分布表:绘制频率分布直方图遵循原则:分的各组之间必须是相互排斥的各组必须将所有的数据包含原创 2020-10-26 22:04:20 · 4161 阅读 · 0 评论 -
初学数据挖掘——数据探索(一):数据质量分析:缺失值分析、异常值分析(简单统计量、箱型图、)、一致性分析
数据质量分析是数据挖掘中数据准备过程很重要的一个阶段,是数据预处理的前提。数据质量分析的主要任务是检查原数据中是否存在脏数据。脏数据:一般是指不符合要求的以及不能直接进行相应分析的数据。常见的脏数据:缺失值、异常值、不一致的值、重复数据即含有特殊符号(如#、¥、*)的数据一、缺失值分析1、缺失值产生的原因:1.有些信息暂时无法获取,或获取信息的代价太高。2.信息被遗漏,可能是人为因素,如收集信息不认真、忘记填写信息等 ;也可能是机器故障等非人为因素。3.缺失值本身就不存在。2、缺失值的影响原创 2020-10-26 09:22:05 · 2899 阅读 · 3 评论