- 博客(16)
- 收藏
- 关注
转载 MLlib--多层感知机(MLP)算法原理及Spark MLlib调用实例(Scala/Java/Python)
来源:http://blog.csdn.net/liulingyuan6/article/details/53432429多层感知机算法简介: 多层感知机是基于反向人工神经网络(feedforwardartificial neural network)。多层感知机含有多层节点,每层节点与网络的下一层节点完全连接。输入层的节点代表输入数据,其他层的节
2017-05-12 09:06:55 2204
转载 LDA主题模型评估方法--Perplexity
来源:http://blog.csdn.net/pirage/article/details/9368535在LDA主题模型之后,需要对模型的好坏进行评估,以此依据,判断改进的参数或者算法的建模能力。Blei先生在论文《Latent Dirichlet Allocation》实验中用的是Perplexity值作为评判标准。一、Perplexity定义源于
2017-05-10 22:30:35 5504
转载 scala---文档主题生成模型(LDA)算法原理及Spark MLlib调用实例(Scala/Java/python)
来源:http://m.blog.csdn.net/article/details?id=53485305算法介绍:LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择
2017-05-10 22:29:50 1395
转载 Scala数据类型
来源:http://www.yiibai.com/scala/scala_data_types.htmlScala的数据类型全部相同于Java中,具有相同的内存占用和精度。以下表是有关可在Scala中所有的数据类型的细节:数据类型描述Byte8位有符号值。范围从-128到127Short16位有符号值。
2017-05-07 22:44:05 400
转载 spark厦大---决策树分类器 -- spark.ml
来源:http://mocom.xmu.edu.cn/article/show/58667ae3aa2c3f280956e7b0/0/1一、方法简介 决策树(decision tree)是一种基本的分类与回归方法,这里主要介绍用于分类的决策树。决策树模式呈树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。学习时利用训练数
2017-05-04 22:52:24 1941
转载 hive--Hive之数据倾斜的原因和解决方法
来源:https://yq.aliyun.com/articles/60908数据倾斜在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。
2017-05-04 22:50:21 14879 2
转载 spark厦大----逻辑斯蒂回归分类器--spark.ml
来源:http://mocom.xmu.edu.cn/article/show/586679ecaa2c3f280956e7af/0/1方法简介 逻辑斯蒂回归(logistic regression)是统计学习中的经典分类方法,属于对数线性模型。logistic回归的因变量可以是二分类的,也可以是多分类的。基本原理logistic分布 设X是连续随机变量,X
2017-05-04 22:45:39 2181
转载 spark厦大---标签和索引的转化:StringIndexer- IndexToString-VectorIndexer
来源:http://mocom.xmu.edu.cn/article/show/587f11deaa2c3f280956e7ba/0/1Spark的机器学习处理过程中,经常需要把标签数据(一般是字符串)转化成整数索引,而在计算结束又需要把整数索引还原为标签。这就涉及到几个转换器:StringIndexer、 IndexToString,OneHotEncoder,以及针对类别特
2017-05-04 22:44:16 2002
转载 spark厦大---Word2Vec--spark.ml
来源:http://mocom.xmu.edu.cn/article/show/587f103faa2c3f280956e7b6/0/1Word2Vec 是一种著名的 词嵌入(Word Embedding) 方法,它可以计算每个单词在其给定语料库环境下的 分布式词向量(Distributed Representation,亦直接被称为词向量)。词向量表示可以在一定程度上刻画
2017-05-04 22:43:05 2923
转载 spark厦大---特征抽取:CountVectorizer -- spark.ml
来源:http://mocom.xmu.edu.cn/article/show/587f1974aa2c3f280956e7bb/0/1CountVectorizer和CountVectorizerModel旨在通过计数来将一个文档转换为向量。当不存在先验字典时,Countvectorizer可作为Estimator来提取词汇,并生成一个CountVectorizerModel
2017-05-04 22:41:57 1780
转载 spark厦大----特征抽取: TF-IDF -- spark.ml
来源:http://mocom.xmu.edu.cn/article/show/58588d4e2b2730e00d70fa03/0/1这一部分我们主要介绍和特征处理相关的算法,大体分为以下三类:特征抽取:从原始数据中抽取特征特征转换:特征的维度、特征的转化、特征的修改特征选取:从大规模特征集中选取一个子集特征抽取 Feature ExtractorsTF-IDF (H
2017-05-04 22:41:00 1439
转载 spark厦大---机器学习工作流(ML Pipelines)—— spark.ml包
来源:http://mocom.xmu.edu.cn/article/show/5858a6062b2730e00d70fa06/0/1一个典型的机器学习过程从数据收集开始,要经历多个步骤,才能得到需要的输出。这非常类似于流水线式工作,即通常会包含源数据ETL(抽取、转化、加载),数据预处理,指标提取,模型训练与交叉验证,新数据预测等步骤。在介绍工作流之前,我们先来了解几个
2017-05-04 22:39:23 1205
转载 spark厦大----KMeans聚类算法 -- spark.mllib
来源:http://mocom.xmu.edu.cn/article/show/586df21caa2c3f280956e7b3/0/1聚类(Clustering) 是机器学习中一类重要的方法。其主要思想使用样本的不同特征属性,根据某一给定的相似度度量方式(如欧式距离)找到相似的样本,并根据距离将样本划分成不同的组。聚类属于典型的无监督学习(Unsupervised Learn
2017-05-03 22:48:52 2125
转载 Scala入门到精通——第六节:类和对象(一)
来源:http://blog.csdn.net/lovehuangjiaju/article/details/47009607本节主要内容1 类定义、创建对象 2 主构造器 3 辅助构造器类定义、创建对象//采用关键字class定义class Person { //类成员必须初始化,否则会报错 //这里定义的是一个公有成员 var
2017-05-03 22:46:25 311
转载 spark厦大-----协同过滤算法 -- spark.mllib包
来源:http://mocom.xmu.edu.cn/article/show/586cac76aa2c3f280956e7b2/0/1一、方法简介 协同过滤是一种基于一组兴趣相同的用户或项目进行的推荐,它根据邻居用户(与目标用户兴趣相似的用户)的偏好信息产生对目标用户的推荐列表。关于协同过滤的一个经典的例子就是看电影。如果你不知道哪一部电影是自己喜欢的或者评分比较高的,
2017-05-03 22:34:10 476
转载 scala--快速了解Breeze
来源:http://blog.csdn.net/zhuqing2020/article/details/37605553https://github.com/scalanlp/breeze/wiki/Quickstart点击打开链接https://github.com/scalanlp/breeze/wiki/Linear-Algebra-Cheat-Sheet点击
2017-05-02 14:39:40 3697
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人