tony的专栏

好好学习,多多益善

dplyr包--数据操作与清洗

1.简介   在我们数据分析的实际应用中,我们可能会花费大量的时间在数据清洗上,而如果使用 R 里面自带的一些函数(base 包的 transform 等),可能会觉得力不从心,或者不是很人性化。好在我们有其他选择。这里我们介绍 dplyr 包。 首先加载包: install.p...

2017-01-23 14:08:10

阅读数 4705

评论数 0

完整的R语言预测建模实例-从数据清理到建模预测

概述 本文使用Kaggle上的一个公开数据集,从数据导入,清理整理一直介绍到最后数据多个算法建模,交叉验证以及多个预测模型的比较全过程,注重在实际数据建模过程中的实际问题和挑战,主要包括以下五个方面的挑战: 缺失值的挑战异常值的挑战不均衡分布的挑战(多重)共线性的挑战预测因子的量纲差异...

2016-12-15 10:02:50

阅读数 6231

评论数 0

18大经典数据挖掘算法小结

本文所有涉及到的数据挖掘代码的都放在了我的github上了。 地址链接: https://github.com/linyiqun/DataMiningAlgorithm 大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联...

2016-05-12 19:43:49

阅读数 991

评论数 0

“多变量分析”——数据挖掘、数据分析

I。多重对应分析   多重对应分析在超过两个以上定类变量时有时候非常有效,当然首先我们要理解并思考,如果只有三个或有限的几个变量完全可以通过数据变换和交互表变量重组可以转换成两个定类变量,这时候就可以用简单对应分析了。 对应分析对数据的格式要求: 对应分析数据的典型格式...

2016-05-03 17:07:40

阅读数 91614

评论数 2

基于分布式架构的大数据商业建模

今天给大家主要分享两个部分: 第一个部分会给大家介绍一下百分点基于分布式架构的大数据建模实践。在这一部分我会主要讲一下建模的技术架构、一些技术、工具以及大数据建模的流程9宫格。 第二个部分我会给大家介绍一下大数据建模的应用场景,以及百分点做过的一个真实企业建模相关的应用场景。 ...

2016-05-03 16:42:25

阅读数 3448

评论数 0

回归分析的七种武器

导读:本文解释了回归分析及其优势,重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等七种最常用的回归技术及其关键要素,最后介绍了选择正确的回归模型的关键因素 什么是回归分析? 回归分析是一种预测性的建模技术,它研究的是因变量(目标)...

2016-05-03 10:40:11

阅读数 1464

评论数 0

一小时了解数据挖掘⑥数据挖掘的评估和结果可视化展示

接前面系列5篇: 一小时了解数据挖掘①:解析常见的大数据应用案例  一小时了解数据挖掘②:分类算法的应用和成熟案例解析 一小时了解数据挖掘③:详解大数据挖掘の分类技术 一小时了解数据挖掘④:商务智能原理解读の数据挖掘九大定律 一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类、决策...

2016-04-25 17:54:53

阅读数 2714

评论数 0

一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类、决策树和CRISP-DM概念

接前面系列4篇: 一小时了解数据挖掘①:解析常见的大数据应用案例  一小时了解数据挖掘②:分类算法的应用和成熟案例解析 一小时了解数据挖掘③:详解大数据挖掘の分类技术 一小时了解数据挖掘④:商务智能原理解读の数据挖掘九大定律 数据挖掘有很多不同的实施方法,如果只是把数...

2016-04-25 17:54:01

阅读数 1997

评论数 0

一小时了解数据挖掘④:商务智能原理解读の数据挖掘九大定律

接上3篇: 一小时了解数据挖掘①:解析常见的大数据应用案例  一小时了解数据挖掘②:分类算法的应用和成熟案例解析 一小时了解数据挖掘③:详解大数据挖掘の分类技术 马云在2012年网商大会上的演讲中说过:“假如我们有了一个数据预报台,就像为企业装上了一个GPS和雷达,企业的出...

2016-04-25 17:53:17

阅读数 649

评论数 0

一小时了解数据挖掘③:详解大数据挖掘の分类技术

接上2篇:一小时了解数据挖掘①:解析常见的大数据应用案例   一小时了解数据挖掘②:分类算法的应用和成熟案例解析 数据挖掘分类技术 从分类问题的提出至今,已经衍生出了很多具体的分类技术。下面主要简单介绍四种最常用的分类技术,不过因为原理和具体的算法实现及优化不是本书的重点...

2016-04-25 17:52:25

阅读数 1717

评论数 0

一小时了解数据挖掘②:分类算法的应用和成熟案例解析

接上篇:一小时了解数据挖掘①:解析常见的大数据应用案例 分类算法的应用 本节将为大家介绍数据挖掘中的分类算法在一些行业中的代表性应用。我们将算法应用分为表述问题和解决过程两个阶段,表述问题即需要运用数据挖掘能够理解和处理的语言来阐述业务问题,最重要的是能够用正确且符合实际的方式把业...

2016-04-25 17:51:46

阅读数 2277

评论数 0

一小时了解数据挖掘①:解析常见的大数据应用案例

本文为系列文,该篇为第一篇。下面是正文: 简而言之,数据挖掘(Data Mining)是有组织有目的地收集数据,通过分析数据使之成为信息,从而在大量数据中寻找潜在规律以形成规则或知识的技术。在本文中,我们从数据挖掘的实例出发,并以数据挖掘中比较经典的分类算法入手,给读者介绍我们怎样利用数据挖...

2016-04-25 17:51:06

阅读数 5695

评论数 0

Mahout中的一些相似度算法实现解读

Mahout中实现的推荐算法是协同过滤,而无论是UserCF还是ItemCF都依赖于user相似度或item相似度。本文是对mahout中的一些相似度算法的解读。 Mahout相似度相关类关系如下: 有点乱(^.^)     从上图可看出,Mahout主要针对用户相似度和物品...

2016-04-25 17:28:53

阅读数 1227

评论数 0

Mahout的相似性度量(相似度算法)

User CF 和 Item CF 都依赖于相似度的计算,因为只有通过衡量用户之间或物品之间的相似度,才能找到用户的“邻居”,才能完成推荐。上文简单的介绍了相似性的计算,但不完全,下面就对常用的相似度计算方法进行详细的介绍:   1. 基于皮尔森相关性的相似度 —— Pearson c...

2016-04-25 16:54:13

阅读数 1972

评论数 0

机器学习之——认识机器学习

前段时间,google的alphaGo让大家的眼睛都聚焦到这一“人工智能”上了。那么就当时应景吧,写一写我关于机器学习的一些笔记及认识,内容主要根据在Coursera上Andrew Ng大神的课程来做笔记。 首先,什么是机器学习? 参照百度百科的讲解,“机器学习是一门多领域交叉学科...

2016-04-23 16:50:31

阅读数 658

评论数 0

机器学习之——单变量线性回归

线性回归 线性回归(Linear Regression)作为Machine Learning 整个课程的切入例子确实有独到的地方,以简单的例子为出发点,将学习任务的主干串起来。问题的建模可以简单如下图所示: 线性回归可以分为单变量线性回归(Linear Regressi...

2016-04-23 16:49:34

阅读数 1193

评论数 0

机器学习之——多变量线性回归

在之前的博客中,描述过单变量线性回归(Linear Regression with One Variables)的模型,这次来分享一下多变量线性回归模型(Linear Regression with Multiple Variables)。 我们还是使用之前的问题,对房价的预测。这一次增...

2016-04-23 16:48:43

阅读数 1195

评论数 0

机器学习之——多项式回归和正规方程

上一次我们分享了多变量线性回归模型(Linear Regression with Multiple Variables),这一次我们来讨论一下多项式回归(Polynomial Regression)和正规方程(Normal Equation)。(我们还是讨论房价预测的问题) ...

2016-04-23 16:47:47

阅读数 8103

评论数 1

机器学习之——逻辑回归

在讨论逻辑回归问题(Logistic Regression)之前,我们先讨论一些实际生活中的情况:判断一封电子邮件是否是垃圾邮件?判断一次交易是否是欺诈交易?判断一份文件是否是有效文件?这类问题,我们称之为分类问题(Classication Problem)。在分类问题中,我们往往尝试去预测的...

2016-04-23 16:47:01

阅读数 584

评论数 0

Mahout构建图书推荐系统

转载请注明出处: http://blog.fens.me/hadoop-mahout-recommend-book/ 前言 本文是Mahout实现推荐系统的又一案例,用Mahout构建图书推荐系统。与之前的两篇文章,思路上面类似,侧重点在于图书的属性如何利用。本文的数据在自于...

2016-04-22 17:54:00

阅读数 393

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭