2019年04月_小狼躲藏

原创聚类分析

聚类常用于数据探索或挖掘前期，在没有做先验经验的背景下做的探索性分析，也适用于样本量较大情况下的数据预处理工作。例如针对企业整体的用户特征，在未得到相关只是或经验之前先根据数据本身特点进行用户分群，然后针对不同群体做进一步分析；例如对连续数据做离散化，便于后续做分类分析应用。常用的聚类算法分为基于划分，层次，密度，网格，统计学，模型等类型的算法，典型算法包括K均值（经典的聚类算法），DB...

2019-04-20 17:40:05 4221

原创数据分析：有关相关性分析的混沌

相关分析是指对多个具备相关关系的变量进行分析，从而衡量变量间的相关程度或密切程度。相关性可以应用到所有数据的分析过程中，任何事物之间都存在一定的联系。相关性用R(相关系数)表示，R的取值范围是[-1,1]相关和因果的差异相关性不等于因果，用x1和x2作为两个变量逆行解释，相关意味着x1和x2是逻辑上的并列相关关系，而因果联系可以解释为因为x1所以x2（或因为x2所以x1）的逻辑关系，二...

2019-04-20 10:14:55 650

原创 Pandas：数据分析与处理

1. 分组分析分组分析是指根据分组字段将分析对象划分成不同的部分，以对比分析各组之间差异性的一种分析方法。常用的统计指标有：计数，求和，平均值。常用命令形式如下：df.groupby(by=['分类1','分类2',...])['被统计的列'].agg({列名1:统计函数1, 列名2:统计函数2,...})参数说明： * by 表示用于分组的列 * [] 表示用于统计...

2019-04-17 23:28:29 674

基本统计分析又叫描述性统计分析，一般统计某个变量的最小值，第一个四分位值，中值，第三个四分位值以及最大值。描述性统计分析函数为describe，该函数返回值有均值，标准差，最大值，最小值，分位数等。括号中可以带一些参数，如percentitles=[0.2,0.4,0.6,0.8]就是指定只计算0.2， 0.6， 0.8 分位数，而不是默认的1/4， 1/2， 3/4分位数。describe...

2019-04-17 23:07:07 2671

原创数据预处理：解决运营数据的共线性问题

所谓共线性（又称多重共线性）问题指的是输入的自变量之间存在较高的先行相关度。共线性问题会导致回归模型的文档行和准确性大大降低，另外，过多无关的维度参与计算也会浪费计算资源和时间。共线性问题是否常见取决于具体业务场景，常见的具有明显的共线性的维度或变量包括如下：访问量和页面浏览量页面浏览量和访问时间订单量和销售额订单量和转化率…导致出现变量间共线性的原因可能包括：数据样本不...

2019-04-17 21:15:52 2445

原创数据预处理：将分类和顺序数据转换为标志变量

分类数据和顺序数据是常见的数据类型。Python标志转换示例说明：在本示例中，将模拟有两列数据分别出现分类数据和顺序数据的情况，并通过自定义代码以及sklearn代码分别进行标志转换。import pandas as pd from sklearn.preprocessing import OneHotEncoder # 导入OneHotEncoder# 生成数据df = pd.D...

2019-04-14 10:10:54 873

原创数据清洗：缺失值，异常值和重复值的处理

在数据清洗过程中，主要处理的是缺失值，异常值和重复值。所谓清洗，是对数据进行丢弃，填充，替换，去重等操作，实现去除异常，纠正错误，补足缺失的目的。1. 数据列缺失的4种处理方法数据缺失分为2种：行记录的缺失，这种情况又称为数据记录丢失；数据列值的丢失，即由于各种原因导致的数据记录种某些列的值缺失。这里重点讨论数据列类型缺失值的处理，通常有4种处理思路：丢弃补全相对于丢弃而...

2019-04-14 08:11:25 11873

原创数据统计分析（4）：数据的离散程度描述

极差极差又被称为范围差或全距（Range），以R表示，是用来表示统计资料中的变异量数，其最大值与最小值之间的差距，即最大值减最小值后所得之数据。它是标志值变动的最大范围，它是测定标志变动的最简单的指标。移动极差是其中一种。极差不能用做比较，单位不同，方差能用做比较，因为都是个比率。计算公式：最直接也是最简单的方法，即最大值－最小值（也就是极差）来评价一组数据的离散度。这一方法在日常...

2019-04-09 23:53:29 61569 1

转载 11步转行数据科学家 (送给数据员/ MIS / BI分析师)

数据科学作为一个专业领域迅速崛起，吸引了来自各种职业背景的人。工程师、计算机科学家、市场和金融毕业生、分析师、人力资源人员——每个人都想尝一块 “数据科学馅饼”。Analytics Vidhya (一个专门针对“分析与数据科学”的社区网站 ) 发布了一篇文章《为初学者迈入数据科学规划的全面学习路径》。A comprehensive Learning path to become a...

2019-04-09 21:00:42 280

转载机器学习与统计学的差异

【导读】统计学和机器学习的真正差别。统计学和机器学习在很多情况下是被混淆的，大部分人其实并不能很好的区分二者。介于此，本文详解的讲解了二者实际的差异，非常有指导意义。很多人并不能很好的区分统计学和机器学习，因为之间确实有太多的相同之处。目前流行的一种说法是，机器学习和统计学之间的主要区别在于它们的目的：机器学习模型旨在使最准确的预测成为可能；统计模型被设计用于推断变量之间的关系。这...

2019-04-09 20:30:25 1262

原创数据统计分析（3）：数据的集中趋势描述

数据描述的第一个维度是数据的集中趋势描述。数据的集中趋势描述是寻找反应事物特征的数据集合的代表值或中心值，这个代表值或中心值可以很好反映事物目前所处的位置和发展水平，通过对事物集中趋势指标的多次测量和比较，还能够说明事物的发展和变化趋势。数据的集中趋势描述的形式主要有如下几种：1.算数平均值算术平均值是最常用的数据集中趋势指标，可以分为简单算术平均值和加权算术平均值。算...

2019-04-09 07:49:25 21263

原创数据统计分析（1）：数据分析流程

首先，数据分析能力是一项综合性的能力。数据分析过程如下：1.明确分析目的和思路1.1 明确分析目的做任何事情都有一个目标，数据分析也不例外。如果目的明确，所有问题都可以迎刃而解。所以在开展数据分析之前，要想清楚：为什么要开展数据分析？通过这次数据分析我要解决什么问题？只有明确数据分析的目标，数据分析才不会偏离方向，否则得出的数据分析结果不仅仅没有指导意义，甚至可能将决策者...

2019-04-08 16:44:38 5756

原创 Pandas 的Merge总结

Pandas Mergepandas 的merge方法提供了一种类似于SQL的内存链接操作，官网文档提到它的性能会比其他开源语言的数据操作（例如R）要高效。MergeMerge的参数on: 列名，join用来对齐的那一列名字，用到这个参数的时候一定要保证坐表和右表用来对齐的那一列都有相同的列名。left_on: 坐标对齐的列，可以是列名，也可以是和dataframe同样长度的array...

2019-04-01 18:29:32 1911

nxcjh321的专栏

原创聚类分析

原创数据分析：有关相关性分析的混沌

原创 Matplotlib可视化

原创 Pandas：数据分析与处理

原创 Pandas：基本统计分析

原创数据预处理：解决运营数据的共线性问题

原创数据预处理：将分类和顺序数据转换为标志变量

原创数据清洗：缺失值，异常值和重复值的处理

原创数据统计分析（4）：数据的离散程度描述

转载 11步转行数据科学家 (送给数据员/ MIS / BI分析师)

转载机器学习与统计学的差异

原创数据统计分析（3）：数据的集中趋势描述

原创数据统计分析（1）：数据分析流程

原创 Pandas 的Merge总结

jQuery 选择器整理

java 监控线程

java 决策树Demo2

java 决策树Demo1

kafka0.8 storm0.9 pom.xml

空空如也