自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 数据分析的理论与实践

学习重在与理论在实践中的运用,数据分析更为如此。而我们所知的数据分析包括很多的理论知识,简单的有统计学中的参数与非参,复杂的有机器学习中的神经网络和支持向量机。在学习的过程中我们不可能在一开始就把这些理论全部弄清楚,需要理论与实践反反复复的去磨,才能把这些融汇贯通。比如说学习一些统计学理论,我们从刚开始的数据分类开始学,一章一章的学到多元线性回归,这算基础统计学的理论学习完成了。但是我们真的会

2015-07-08 11:00:40 1131

原创 数据探索和数据准备的步骤

数据探索和数据准备的步骤前言如我们所知,数据分析工作的70%的时间都用作于数据清洗,数据探索和数据准备当中,这可以说是数据分析的核心所在。数据清洗主要是工具层面上的,这里先不讨论。我们这里讨论数据探索和数据准备的六大步骤。 变量的识别单变量的分析双变量的分析处理缺失值处理异常值特征提取(Feature Engineering)变量的识别在对数据分析之前,我们需要去识别变量,去了解变量

2015-07-04 11:21:26 6717 1

原创 各种相似度计算的python实现

各种相似度计算的python实现(一)前言在数据挖掘中有很多地方要计算相似度,比如聚类分析和协同过滤。计算相似度的有许多方法,其中有欧几里德距离、曼哈顿距离、Jaccard系数和皮尔逊相关度等等。我们这里把一些常用的相似度计算方法,用python进行实现以下。如果是初学者,我认为把公式先写下来,然后再写代码去实现比较好。欧几里德距离几个数据集之间的相似度一般是基于每对对象间的距离计算。最常用的当然是

2015-07-04 10:54:22 21254 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除