数据建模
achuo
IT码农,技术菜鸟,十年经验,技术渣渣
展开
-
Mahout的相似性度量(相似度算法)
User CF 和 Item CF 都依赖于相似度的计算,因为只有通过衡量用户之间或物品之间的相似度,才能找到用户的“邻居”,才能完成推荐。上文简单的介绍了相似性的计算,但不完全,下面就对常用的相似度计算方法进行详细的介绍: 1. 基于皮尔森相关性的相似度 —— Pearson correlation-based similarity皮尔森相关系数反应了两个变量之间的线性相转载 2016-04-25 16:54:13 · 2328 阅读 · 0 评论 -
【机器学习笔记3】Stanford公开课Exercise 2——Linear Regression
Stanford公开课Exercise 2原题地址:http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=MachineLearning&doc=exercises/ex2/ex2.html。看Stanford的机器学习公开课真是舒服,视频讲解的非常清楚,练习也布置的非常好,把所有重要内容总结了一遍,给出了很多参考转载 2016-04-15 11:22:13 · 955 阅读 · 0 评论 -
【机器学习笔记4】Stanford公开课Exercise 3——Multivariate Linear Regression
Stanford公开课Exercise 3原题地址:http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=MachineLearning&doc=exercises/ex3/ex3.html,下面是我完成的笔记。第一部分,gradient descent方法(一)转载 2016-04-15 11:22:50 · 640 阅读 · 0 评论 -
对线性回归,logistic回归和一般回归的认识
【转载时请注明来源】:http://www.cnblogs.com/jerrylead JerryLead 2011年2月27日 作为一个机器学习初学者,认识有限,表述也多有错误,望大家多多批评指正。1 摘要 本报告是在学习斯坦福大学机器学习课程前四节加上配套的讲义后的总结与认识。前四节主要讲述了回归问题,回归属于有监督学习转载 2016-04-15 11:25:35 · 649 阅读 · 0 评论 -
数据建模那点事儿
作者:陈丹奕今天要说内容是建模。为啥我作为一个数学能力并不强的人要在这献丑讲建模的事呢?其实我的目的很简单,就是为了告诉大家一个事实:数据分析中的建模,并没有想象中那么高深莫测,人人都有机会做出自己的模型。第一部分:数据建模理论和逻辑一、从数据分析的定义开始维基百科对数据分析的定义如下:Analysis of data is a process of inspecting, cleaning, t...转载 2016-04-15 11:44:38 · 58375 阅读 · 2 评论 -
一个数据分析师的自我修养
第一份数据报告的诞生陈丹奕 · 6 个月前因为在之前的回答里提到,建议希望成为数据分析师的知友们在学习过相关知识以后,做一份自己的数据报告,作为求职的敲门砖,展示已有能力。后来发现,我这个建议自以为干货,但其实犯了“给鸡汤不给勺子”的错误,很多人(>20个)发私信来问我报告到底怎么做……为了不违反我的人生准则之一——给鸡汤必须给勺儿,现在我就来帮初学者们梳理一下数据报告的制作方转载 2016-04-15 15:08:00 · 7944 阅读 · 1 评论 -
逻辑回归
什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。这一家族中的模型形式基本上都差不多,不同的就是因变量不同。如果是连续的,就是多重线性回归;如果是二项分布,就是Logistic回归;转载 2016-04-18 09:46:19 · 317 阅读 · 0 评论 -
大数据下的逻辑回归训练模型方法论
在数据膨胀的当今社会里,海量数据中蕴含价值日渐凸显出来。如何有效的挖掘海量数据中的有效信息已经成为各个领域面临的共同问题。以互联网企业为代表的科技公司依据自身的实际需求,开始大量的应用机器学习、数据挖掘以及人工智能等算法获取海量数据中蕴含的信息,并且已经取得了很好的效果。当今社会已经从过去的信息匮乏,转变为信息泛滥的时代。由于网络以及相关应用的不断普及,网络数据逐渐呈现着”海量,高维”的趋转载 2016-04-18 10:12:36 · 12495 阅读 · 0 评论 -
Logistic Regression逻辑回归分类器weka实现
题目:从UCI下载到一个数据集,通过病人的体温、是否恶心、是否腰椎疼痛、是否尿推(连续需要排尿)、排尿是否疼痛、尿道口是否有灼烧,痒,肿的感觉。来判断该病人是否得了膀胱炎,或是得了肾盂原产肾炎。1.分类器参数设置-M设置迭代更新参数Θ的最大次数为numbereg:-M 3表示用 Regression逻辑回归分类器weka实现" title="Logi转载 2016-04-18 11:55:27 · 4333 阅读 · 0 评论 -
18大经典数据挖掘算法小结
本文所有涉及到的数据挖掘代码的都放在了我的github上了。地址链接: https://github.com/linyiqun/DataMiningAlgorithm大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面。也算是对数据挖掘领域的小小入门了吧。下面就做个小小的总结,后面都是我自转载 2016-05-12 19:43:49 · 1140 阅读 · 0 评论 -
回归分析的七种武器
导读:本文解释了回归分析及其优势,重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等七种最常用的回归技术及其关键要素,最后介绍了选择正确的回归模型的关键因素什么是回归分析?回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因转载 2016-05-03 10:40:11 · 1758 阅读 · 0 评论 -
基于分布式架构的大数据商业建模
今天给大家主要分享两个部分:第一个部分会给大家介绍一下百分点基于分布式架构的大数据建模实践。在这一部分我会主要讲一下建模的技术架构、一些技术、工具以及大数据建模的流程9宫格。第二个部分我会给大家介绍一下大数据建模的应用场景,以及百分点做过的一个真实企业建模相关的应用场景。1. 基于分布式架构的大数据建模实践我们看到大数据时代的到来,数据的量,数据的源都发生了转载 2016-05-03 16:42:25 · 4698 阅读 · 0 评论 -
“多变量分析”——数据挖掘、数据分析
I。多重对应分析 多重对应分析在超过两个以上定类变量时有时候非常有效,当然首先我们要理解并思考,如果只有三个或有限的几个变量完全可以通过数据变换和交互表变量重组可以转换成两个定类变量,这时候就可以用简单对应分析了。对应分析对数据的格式要求:对应分析数据的典型格式是列联表或交叉频数表。常表示不同背景的消费者对若干产品或产品的属性的选择频率。背景变量或属性变量可以并转载 2016-05-03 17:07:40 · 110519 阅读 · 3 评论 -
完整的R语言预测建模实例-从数据清理到建模预测
概述本文使用Kaggle上的一个公开数据集,从数据导入,清理整理一直介绍到最后数据多个算法建模,交叉验证以及多个预测模型的比较全过程,注重在实际数据建模过程中的实际问题和挑战,主要包括以下五个方面的挑战:缺失值的挑战异常值的挑战不均衡分布的挑战(多重)共线性的挑战预测因子的量纲差异以上的几个主要挑战,对于熟悉机器学习的人来说,应该都是比较清楚的,这个案例中会涉及到五个挑战中转载 2016-12-15 10:02:50 · 8750 阅读 · 0 评论 -
【机器学习笔记2】Linear Regression总结
Linear Regression总结作者:洞庭之子微博:洞庭之子-Bing(2013年11月)关于linear regression,Andrew Ng老师的课程中介绍了两种方法:gradient descent(梯度下降法)和normal equation,《机器学习实战》中直接使用的normal equation及其改进方法,本文记录对着两转载 2016-04-15 11:21:33 · 1671 阅读 · 0 评论 -
【机器学习笔记1】Logistic回归总结
Logistic回归总结作者:洞庭之子微博:洞庭之子-Bing(2013年11月)PDF下载地址:http://download.csdn.net/detail/lewsn2008/65474631.引言看了Stanford的Andrew Ng老师的机器学习公开课中关于Logistic Regression的讲解,然后又看了《机器学习实战》中转载 2016-04-15 11:16:27 · 9895 阅读 · 13 评论 -
一小时了解数据挖掘⑥数据挖掘的评估和结果可视化展示
接前面系列5篇:一小时了解数据挖掘①:解析常见的大数据应用案例 一小时了解数据挖掘②:分类算法的应用和成熟案例解析一小时了解数据挖掘③:详解大数据挖掘の分类技术一小时了解数据挖掘④:商务智能原理解读の数据挖掘九大定律一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类、决策树和CRISP-DM概念数据挖掘的评估评价一个数据转载 2016-04-25 17:54:53 · 3317 阅读 · 0 评论 -
机器学习之——认识机器学习
前段时间,google的alphaGo让大家的眼睛都聚焦到这一“人工智能”上了。那么就当时应景吧,写一写我关于机器学习的一些笔记及认识,内容主要根据在Coursera上Andrew Ng大神的课程来做笔记。首先,什么是机器学习?参照百度百科的讲解,“机器学习是一门多领域交叉学科,设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习转载 2016-04-23 16:50:31 · 795 阅读 · 0 评论 -
机器学习之——单变量线性回归
线性回归线性回归(Linear Regression)作为Machine Learning 整个课程的切入例子确实有独到的地方,以简单的例子为出发点,将学习任务的主干串起来。问题的建模可以简单如下图所示:线性回归可以分为单变量线性回归(Linear Regression with One Variable)以及多变量线性回归(Linear Regression wi转载 2016-04-23 16:49:34 · 1534 阅读 · 0 评论 -
机器学习之——多变量线性回归
在之前的博客中,描述过单变量线性回归(Linear Regression with One Variables)的模型,这次来分享一下多变量线性回归模型(Linear Regression with Multiple Variables)。我们还是使用之前的问题,对房价的预测。这一次增加更多的特征,例如房子的楼层数、卧室数量等,这样就构成了一个含有多个变量的模型,模型中的特征我们标记为转载 2016-04-23 16:48:43 · 1584 阅读 · 0 评论 -
机器学习之——多项式回归和正规方程
上一次我们分享了多变量线性回归模型(Linear Regression with Multiple Variables),这一次我们来讨论一下多项式回归(Polynomial Regression)和正规方程(Normal Equation)。(我们还是讨论房价预测的问题)多项式回归有时候,线性回归并不适用于所有全部的数据,我们需要曲线来适应我们的数据,比如一个二次转载 2016-04-23 16:47:47 · 8600 阅读 · 1 评论 -
机器学习之——逻辑回归
在讨论逻辑回归问题(Logistic Regression)之前,我们先讨论一些实际生活中的情况:判断一封电子邮件是否是垃圾邮件?判断一次交易是否是欺诈交易?判断一份文件是否是有效文件?这类问题,我们称之为分类问题(Classication Problem)。在分类问题中,我们往往尝试去预测的结果是否属于某一个类(正确活错误)。我们从二元的分类问题开始讨论,即问题是正确或错误的。转载 2016-04-23 16:47:01 · 718 阅读 · 0 评论 -
Mahout推荐算法API详解
前言用Mahout来构建推荐系统,是一件既简单又困难的事情。简单是因为Mahout完整地封装了“协同过滤”算法,并实现了并行化,提供非常简单的API接口;困难是因为我们不了解算法细节,很难去根据业务的场景进行算法配置和调优。本文将深入算法API去解释Mahout推荐算法底层的一些事。目录Mahout推荐算法介绍算法评判标准:召回率与准确率Recommender.ja转载 2016-04-21 16:14:23 · 565 阅读 · 0 评论 -
用Maven构建Mahout项目
作为IT界的开发人员,我们也要跟上节奏,抓住机遇,跟着Hadoop一起雄起!关于作者:张丹(Conan), 程序员Java,R,PHP,Javascriptweibo:@Conan_Zblog: http://blog.fens.meemail: bsspirit@gmail.com转载请注明出处:http://blog.fens.me/hadoop-m转载 2016-04-22 17:05:18 · 418 阅读 · 0 评论 -
Mahout构建图书推荐系统
转载请注明出处:http://blog.fens.me/hadoop-mahout-recommend-book/前言本文是Mahout实现推荐系统的又一案例,用Mahout构建图书推荐系统。与之前的两篇文章,思路上面类似,侧重点在于图书的属性如何利用。本文的数据在自于Amazon网站,由爬虫抓取获得。目录项目背景需求分析数据说明算法模型转载 2016-04-22 17:54:00 · 637 阅读 · 0 评论 -
Mahout中的一些相似度算法实现解读
Mahout中实现的推荐算法是协同过滤,而无论是UserCF还是ItemCF都依赖于user相似度或item相似度。本文是对mahout中的一些相似度算法的解读。Mahout相似度相关类关系如下:有点乱(^.^) 从上图可看出,Mahout主要针对用户相似度和物品相似度的计算,并且除了HybridSimilarity之外全都能够用于计算user和item两者的相似转载 2016-04-25 17:28:53 · 2240 阅读 · 0 评论 -
一小时了解数据挖掘①:解析常见的大数据应用案例
本文为系列文,该篇为第一篇。下面是正文:简而言之,数据挖掘(Data Mining)是有组织有目的地收集数据,通过分析数据使之成为信息,从而在大量数据中寻找潜在规律以形成规则或知识的技术。在本文中,我们从数据挖掘的实例出发,并以数据挖掘中比较经典的分类算法入手,给读者介绍我们怎样利用数据挖掘的技术解决现实中出现的问题。数据挖掘是如何解决问题的?本节通过几个数据挖掘实际案例来转载 2016-04-25 17:51:06 · 7127 阅读 · 0 评论 -
一小时了解数据挖掘②:分类算法的应用和成熟案例解析
接上篇:一小时了解数据挖掘①:解析常见的大数据应用案例分类算法的应用本节将为大家介绍数据挖掘中的分类算法在一些行业中的代表性应用。我们将算法应用分为表述问题和解决过程两个阶段,表述问题即需要运用数据挖掘能够理解和处理的语言来阐述业务问题,最重要的是能够用正确且符合实际的方式把业务问题转化成数据挖掘问题,这往往决定了后续工作是否能有效的展开,尝试解决一个不符合实际的业务问题往往会转载 2016-04-25 17:51:46 · 3171 阅读 · 0 评论 -
一小时了解数据挖掘③:详解大数据挖掘の分类技术
接上2篇:一小时了解数据挖掘①:解析常见的大数据应用案例 一小时了解数据挖掘②:分类算法的应用和成熟案例解析数据挖掘分类技术从分类问题的提出至今,已经衍生出了很多具体的分类技术。下面主要简单介绍四种最常用的分类技术,不过因为原理和具体的算法实现及优化不是本书的重点,所以我们尽量用应用人员能够理解的语言来表述这些技术。在我们学习这些算法之前必须要清楚一点,分转载 2016-04-25 17:52:25 · 1968 阅读 · 0 评论 -
一小时了解数据挖掘④:商务智能原理解读の数据挖掘九大定律
接上3篇:一小时了解数据挖掘①:解析常见的大数据应用案例 一小时了解数据挖掘②:分类算法的应用和成熟案例解析一小时了解数据挖掘③:详解大数据挖掘の分类技术马云在2012年网商大会上的演讲中说过:“假如我们有了一个数据预报台,就像为企业装上了一个GPS和雷达,企业的出海将会更有把握。”。这里的数据预报台就是下文所述的商业智能。什么是商业智能(Business转载 2016-04-25 17:53:17 · 830 阅读 · 0 评论 -
一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类、决策树和CRISP-DM概念
接前面系列4篇:一小时了解数据挖掘①:解析常见的大数据应用案例 一小时了解数据挖掘②:分类算法的应用和成熟案例解析一小时了解数据挖掘③:详解大数据挖掘の分类技术一小时了解数据挖掘④:商务智能原理解读の数据挖掘九大定律数据挖掘有很多不同的实施方法,如果只是把数据拉到Excel表格中计算一下,那只是数据分析,不是数据挖掘。本文主要讲解数据挖掘的基本规范流程。CR转载 2016-04-25 17:54:01 · 2819 阅读 · 0 评论 -
dplyr包--数据操作与清洗
1.简介 在我们数据分析的实际应用中,我们可能会花费大量的时间在数据清洗上,而如果使用 R 里面自带的一些函数(base 包的 transform 等),可能会觉得力不从心,或者不是很人性化。好在我们有其他选择。这里我们介绍 dplyr 包。首先加载包:install.packages("dplyr")library(dplyr)单表操作函数(one tab转载 2017-01-23 14:08:10 · 6142 阅读 · 0 评论