DM&DL&ML
文章平均质量分 85
行者小朱
stay hungry,stay foolish
展开
-
在MapReduce中利用MultipleOutputs输出多个文件
最近在学习Hadoop,由于用到要将reduce结果输出到多个文档中,所以研究了一下MultipleOutputs用法,在这里总结一下。 首先我用到的例子是将原始数据按国家分类成不同的文档,数据是从网上拷贝下来的,如下:18.217.167.70 United States206.96.54.107 United States196.109.151.139 Mauritius174.原创 2015-10-30 08:52:14 · 2020 阅读 · 0 评论 -
聚类算法:DBScan算法
对算法的用例是在Spark平台对学生上网记录处理的一个实例,参考地址见DBScan算法运用实例一、问题提出先考虑一个问题,对下图1中的数据集合怎么聚类?对图2的无规则的数据集合又该如何聚类?二、概念介绍邻域半径(radius):以当前对象为核心确定密度区域范围时引用的长度,二维平面中就指以当前对象为圆心确定圆时引用所用的半径。如下图中的Eps即为领域半径。密度域值(原创 2016-01-12 10:24:15 · 12551 阅读 · 0 评论 -
常用机器学习算法总结
网上看到一篇关于常用机器学习算法的总结,觉得浅显易懂,转来分享(并加入一些理解),特此声明1、决策树根据一些 feature 进行分类,每个节点提一个问题,通过判断,将数据分为两类,再继续提问。这些问题是根据已有数据学习出来的,再投入新数据的时候,就可以根据这棵树上的问题,将数据划分到合适的叶子上。2、随机森林算法3、逻辑回归4、SVM5、朴素贝叶斯6、K最转载 2017-02-14 21:36:33 · 1800 阅读 · 0 评论 -
SparkML中三种特征选择算法(VectorSlicer/RFormula/ChiSqSelector)
上一章理解了基于SparkML的文本特征提取(Feature Extractors)算法,这里再针对特征选择(Feature Selectors)的三个算法(VectorSlicer、RFormula以及ChiSqSelector)结合Demo进行一下理解VectorSlicer算法介绍: VectorSlicer是一个转换器输入特征向量,输出原始特征向量子集。Vector原创 2017-03-07 16:19:40 · 8044 阅读 · 0 评论 -
基于Spark的FPGrowth算法的运用
Spark.mllib 提供并行FP-growth算法,这个算法经常用于挖掘频度物品集。关于算法的介绍网上很多,这里不再赘述。主要搞清楚两个概念:1)支持度support(A => B) = P(AUB),表示数据集D中,事件A和事件B共同出现的概率;2)置信度confidence(A => B) = P(B|A),表示数据集D中,出现事件A的事件中出现事件B的概率;由上可以看出,支持原创 2017-01-17 22:26:28 · 8146 阅读 · 0 评论 -
SparkML中三种文本特征提取算法(TF-IDF/Word2Vec/CountVectorizer)
TF-IDF算法介绍: 词频-逆向文件频率(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。 词语由t表示,文档由d表示,语料库由D表示。词频TF(t,,d)是词语t在文档d中出现的次数。文件频率DF(t,D)是包含词语的文档的个数。如果我们只使用词频来衡量重要性,很容易过度强调在文档中经常出现而并没有包含原创 2017-03-06 21:49:51 · 11323 阅读 · 0 评论 -
SparkJavaAPI---join的使用
将一组数据转化为RDD后,分别创造出两个PairRDD,然后再对两个PairRDD合并Key相同的Value,过程如下图所示:代码实现如下:public class SparkRDDDemo { public static void main(String[] args){ SparkConf conf = new SparkConf().setAppNam原创 2017-03-29 16:46:32 · 3569 阅读 · 0 评论 -
基于用户的协同过滤算法的电影推荐系统
上一篇讲解了推荐算法的分类,这里电影推荐系统具体分析一下第一步:建立用户电影矩阵模型 如表1所示,协同过滤算法的输入数据通常表示为一个m*n的用户评价矩阵Matrix,m是用户数,n是电影数,Matrix[ij]表示第i个用户对第j个电影的评价:第二步:发现兴趣相似的用户 这一阶段,主要完成对目标用户最近邻居的查找,通过计算目标用户与其他用户原创 2016-08-21 16:54:02 · 48299 阅读 · 32 评论 -
均方差和K值平均准确率
在推荐系统和协同过滤模型里常用两个评估指标判断一个模型是否为一个好模型:均方差和K值平均准确率一、均方差(Mean Squared Error,MSE)也称标准差,定义是总体各单位标准值与其平均值的差的算术平均数的平方根,【假设一组数值为X1,X2,C3...Xn,其平均值为u,则均方差为】,可以反映一个数据集的离散程度 。它也是一些模型里所采用的最小化目标函数,特别是许多矩阵分解类方法,原创 2016-05-17 20:27:33 · 5912 阅读 · 0 评论 -
特征工程综述
在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而,单纯学习机器学习的算法流程,可能仍然不会使用这些算法(现在大部分的算法网上也都有源码),尤其是应用到实际问题的时候,常常不知道怎么提取特征来建模,因此这里着重理解一下特征工程。一、特征工程的意义 我们知道,影响分类/聚类结果的因素有:源数据、特征的提取、模型的选择。大多数据模型现在基原创 2017-02-15 17:43:58 · 1512 阅读 · 0 评论 -
机器学习中的数据清洗与特征处理综述
背景随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术,例如个性化推荐、筛选排序、搜索排序、用户建模等等,为公司创造了巨大的价值。本文主要介绍在美团的推荐与个性化团队实践中的数据转载 2017-02-16 21:13:43 · 1923 阅读 · 0 评论 -
Hadoop平台倒排索引应用举例
一、Hadoop介绍一种分布式系统架构,可以使用户在不了解分布式系统底层的细节的情况下开发分布式程序,框架最核心组件包括HDFS和MapReduce1、HDFS:分布式文件系统,为海量数据提供存储2、MapReduce:一种编程模型、离线计算框架,我们只需要将处理过程抽象成为Map过程和Reduce过程(Map将用户输入的数据解析成对形式作为中间结果,Reduce根据自定义的逻辑将原创 2016-01-27 11:57:28 · 1354 阅读 · 0 评论 -
各种分类算法优缺点比较
在学习分类算法时看到这篇文章,总结的比较详细,特此转载过来大家分享,谢谢原作者的总结!!!一、决策树(Decision Trees)的优缺点决策树的优点:1、决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。2、对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。3、 能够同时处理数据型和转载 2016-05-25 19:54:20 · 25031 阅读 · 0 评论 -
聚类算法分析总结
一、什么是聚类?聚类(Clustering):聚类是一个人们日常生活的常见行为,即所谓“物以类聚,人以群分”,核心的思想也就是聚类。人们总是不断地改进下意识中的聚类模式来学习如何区分各个事物和人。同时,聚类分析已经广泛的应用在许多应用中,包括模式识别,数据分析,图像处理以及市场研究。通过聚类,人们能意识到密集和稀疏的区域,发现全局的分布模式,以及数据属性之间的有趣的相互关系。简单来说就是将原创 2016-01-15 17:14:11 · 19434 阅读 · 1 评论 -
分类算法:朴素贝叶斯算法
一、问题的提出使用Wikipedia上的一个例子:一所学校里面有 60% 的男生,40% 的女生。男生总是穿长裤,女生则一半穿长裤一半穿裙子。有了这些信息之后我们可以容易地计算“随机选取一个学生,他(她)穿长裤的概率和穿裙子的概率是多大”,这个就是前面说的“正向概率”的计算。然而,假设你走在校园中,迎面走来一个穿长裤的学生(很不幸的是你高度近似,你只看得见他(她)穿的是否长裤,而无法确定他原创 2016-05-24 16:23:34 · 3448 阅读 · 0 评论 -
分类算法:决策树算法
一、决策树的定义决策树是一种对实例进行分类的树形结构,也是一种基本的分类与回归方法。决策树由结点(node)和有向边(directed edge)组成。结点又分为两种类型:内部结点(internal node)和叶结点(leaf node),内部结点表示一个特征或属性,叶结点表示一个分类。如下图所示为一个决策树模型: 二、决策树的学习决策树的学习还表示给定特征条件下原创 2016-05-31 16:10:50 · 4428 阅读 · 0 评论 -
如何入门深度学习?
在网上看到一篇关于深度学习的贴子,写的比较好,特转来与大家分享,感谢原作者Tel-Aviv大学深度学习实验室的Ofir同学写了一篇如何入门深度学习的文章,顺手翻译一下,造福大家。人工神经网络最近在很多领域(例如面部识别,物体发现和围棋)都取得了突破,深度学习变得炙手可热。如果你对深度学习感兴趣的话,这篇文章是个不错的起点。如果你学过线性代数,微积分,转载 2016-07-06 21:45:29 · 6824 阅读 · 1 评论 -
MatLab2012b/MatLab2013b分类器大全(svm,knn,随机森林等)
转自文章MatLab2012b/MatLab2013b分类器大全(svm,knn,随机森林等)train_data是训练特征数据, train_label是分类标签。Predict_label是预测的标签。MatLab训练数据, 得到语义标签向量 Scores(概率输出)。1.逻辑回归(多项式MultiNomial logistic Regression)Fac转载 2016-08-30 14:57:19 · 513 阅读 · 0 评论 -
Hadoop平台运用朴素贝叶斯算法进行文档分类总结
上一篇文章介绍了朴素贝叶斯算法的基本思想,这里主要讲解一下在Hadoop中运用朴素贝叶斯算法进行文档分类的思路。一、贝叶斯原理贝叶斯分类算法的理论基于贝叶斯公式,P(B|A)=(P(A|B)P(B))/P(A) ,其中P(A|B)称为条件概率,P(B)先验概率,对应P(B|A)为后验概率。朴素贝叶斯分类器基于一个简单的假定,即给定的目标值属性之间是相互独立。贝叶斯公式之所以有用是因为在原创 2016-05-24 16:44:39 · 4862 阅读 · 0 评论 -
推荐算法介绍
随着计算机领域技术的高速发展,电子商务时代的普及,个性化的推荐系统深入生活应用的各个方面。个性化推荐算法是推荐系统中最核心的技术,在很大程度上决定了电子商务推荐系统性能的优劣。而协同过滤推荐是个性化推荐系统应用最为广泛的技术,协同过滤推荐主要分为基于用户的协同过滤推荐、基于项目的协同过滤推荐和基于模型的协同过滤推荐。一、根据目标用户推荐 1、大众行为的推荐引擎:基于系统所原创 2016-08-21 16:21:26 · 18767 阅读 · 3 评论 -
聚类算法:K-Means算法及其实现
K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。对于聚类问题,我们事先并不知道给定的一个训练数据集到底具有哪些类别(即没有指定类标签),而是根据需要设置指定个数类标签的数量(但不知道具体的类标签是什么),然后通过K-means算法将具有相同特征,或原创 2015-08-21 14:58:09 · 11954 阅读 · 0 评论