- 博客(3)
- 收藏
- 关注
原创 数据分析的理论与实践
学习重在与理论在实践中的运用,数据分析更为如此。而我们所知的数据分析包括很多的理论知识,简单的有统计学中的参数与非参,复杂的有机器学习中的神经网络和支持向量机。在学习的过程中我们不可能在一开始就把这些理论全部弄清楚,需要理论与实践反反复复的去磨,才能把这些融汇贯通。比如说学习一些统计学理论,我们从刚开始的数据分类开始学,一章一章的学到多元线性回归,这算基础统计学的理论学习完成了。但是我们真的会
2015-07-08 11:00:40 1131
原创 数据探索和数据准备的步骤
数据探索和数据准备的步骤前言如我们所知,数据分析工作的70%的时间都用作于数据清洗,数据探索和数据准备当中,这可以说是数据分析的核心所在。数据清洗主要是工具层面上的,这里先不讨论。我们这里讨论数据探索和数据准备的六大步骤。 变量的识别单变量的分析双变量的分析处理缺失值处理异常值特征提取(Feature Engineering)变量的识别在对数据分析之前,我们需要去识别变量,去了解变量
2015-07-04 11:21:26 6717 1
原创 各种相似度计算的python实现
各种相似度计算的python实现(一)前言在数据挖掘中有很多地方要计算相似度,比如聚类分析和协同过滤。计算相似度的有许多方法,其中有欧几里德距离、曼哈顿距离、Jaccard系数和皮尔逊相关度等等。我们这里把一些常用的相似度计算方法,用python进行实现以下。如果是初学者,我认为把公式先写下来,然后再写代码去实现比较好。欧几里德距离几个数据集之间的相似度一般是基于每对对象间的距离计算。最常用的当然是
2015-07-04 10:54:22 21254 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人