2017年05月_小丁丁_ddxdd

转载 MLlib--多层感知机（MLP）算法原理及Spark MLlib调用实例（Scala/Java/Python）

来源：http://blog.csdn.net/liulingyuan6/article/details/53432429多层感知机算法简介：多层感知机是基于反向人工神经网络（feedforwardartificial neural network）。多层感知机含有多层节点，每层节点与网络的下一层节点完全连接。输入层的节点代表输入数据，其他层的节

2017-05-12 09:06:55 2204

转载 LDA主题模型评估方法--Perplexity

来源：http://blog.csdn.net/pirage/article/details/9368535在LDA主题模型之后，需要对模型的好坏进行评估，以此依据，判断改进的参数或者算法的建模能力。Blei先生在论文《Latent Dirichlet Allocation》实验中用的是Perplexity值作为评判标准。一、Perplexity定义源于

2017-05-10 22:30:35 5504

转载 scala---文档主题生成模型(LDA)算法原理及Spark MLlib调用实例(Scala/Java/python)

来源：http://m.blog.csdn.net/article/details?id=53485305算法介绍：LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择

2017-05-10 22:29:50 1395

转载 Scala数据类型

来源：http://www.yiibai.com/scala/scala_data_types.htmlScala的数据类型全部相同于Java中，具有相同的内存占用和精度。以下表是有关可在Scala中所有的数据类型的细节：数据类型描述Byte8位有符号值。范围从-128到127Short16位有符号值。

2017-05-07 22:44:05 400

转载 spark厦大---决策树分类器 -- spark.ml

来源：http://mocom.xmu.edu.cn/article/show/58667ae3aa2c3f280956e7b0/0/1一、方法简介决策树（decision tree）是一种基本的分类与回归方法，这里主要介绍用于分类的决策树。决策树模式呈树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。学习时利用训练数

2017-05-04 22:52:24 1941

转载 hive--Hive之数据倾斜的原因和解决方法

来源：https://yq.aliyun.com/articles/60908数据倾斜在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。

2017-05-04 22:50:21 14879 2

转载 spark厦大----逻辑斯蒂回归分类器--spark.ml

来源：http://mocom.xmu.edu.cn/article/show/586679ecaa2c3f280956e7af/0/1方法简介逻辑斯蒂回归（logistic regression）是统计学习中的经典分类方法，属于对数线性模型。logistic回归的因变量可以是二分类的，也可以是多分类的。基本原理logistic分布设X是连续随机变量，X

2017-05-04 22:45:39 2181

转载 spark厦大---标签和索引的转化：StringIndexer- IndexToString-VectorIndexer

来源：http://mocom.xmu.edu.cn/article/show/587f11deaa2c3f280956e7ba/0/1Spark的机器学习处理过程中，经常需要把标签数据（一般是字符串）转化成整数索引，而在计算结束又需要把整数索引还原为标签。这就涉及到几个转换器：StringIndexer、 IndexToString，OneHotEncoder，以及针对类别特

2017-05-04 22:44:16 2002

转载 spark厦大---Word2Vec--spark.ml

来源：http://mocom.xmu.edu.cn/article/show/587f103faa2c3f280956e7b6/0/1Word2Vec 是一种著名的词嵌入（Word Embedding）方法，它可以计算每个单词在其给定语料库环境下的分布式词向量（Distributed Representation，亦直接被称为词向量）。词向量表示可以在一定程度上刻画

2017-05-04 22:43:05 2923

转载 spark厦大---特征抽取：CountVectorizer -- spark.ml

来源：http://mocom.xmu.edu.cn/article/show/587f1974aa2c3f280956e7bb/0/1CountVectorizer和CountVectorizerModel旨在通过计数来将一个文档转换为向量。当不存在先验字典时，Countvectorizer可作为Estimator来提取词汇，并生成一个CountVectorizerModel

2017-05-04 22:41:57 1780

转载 spark厦大----特征抽取： TF-IDF -- spark.ml

来源：http://mocom.xmu.edu.cn/article/show/58588d4e2b2730e00d70fa03/0/1这一部分我们主要介绍和特征处理相关的算法，大体分为以下三类：特征抽取：从原始数据中抽取特征特征转换：特征的维度、特征的转化、特征的修改特征选取：从大规模特征集中选取一个子集特征抽取 Feature ExtractorsTF-IDF (H

2017-05-04 22:41:00 1439

转载 spark厦大---机器学习工作流(ML Pipelines)—— spark.ml包

来源：http://mocom.xmu.edu.cn/article/show/5858a6062b2730e00d70fa06/0/1一个典型的机器学习过程从数据收集开始，要经历多个步骤，才能得到需要的输出。这非常类似于流水线式工作，即通常会包含源数据ETL（抽取、转化、加载），数据预处理，指标提取，模型训练与交叉验证，新数据预测等步骤。在介绍工作流之前，我们先来了解几个

2017-05-04 22:39:23 1205

转载 spark厦大----KMeans聚类算法 -- spark.mllib

来源：http://mocom.xmu.edu.cn/article/show/586df21caa2c3f280956e7b3/0/1聚类（Clustering）是机器学习中一类重要的方法。其主要思想使用样本的不同特征属性，根据某一给定的相似度度量方式（如欧式距离）找到相似的样本，并根据距离将样本划分成不同的组。聚类属于典型的无监督学习（Unsupervised Learn

2017-05-03 22:48:52 2125

转载 Scala入门到精通——第六节：类和对象（一）

来源：http://blog.csdn.net/lovehuangjiaju/article/details/47009607本节主要内容1 类定义、创建对象 2 主构造器 3 辅助构造器类定义、创建对象//采用关键字class定义class Person { //类成员必须初始化，否则会报错 //这里定义的是一个公有成员 var

2017-05-03 22:46:25 311

转载 spark厦大-----协同过滤算法 -- spark.mllib包

来源：http://mocom.xmu.edu.cn/article/show/586cac76aa2c3f280956e7b2/0/1一、方法简介协同过滤是一种基于一组兴趣相同的用户或项目进行的推荐，它根据邻居用户(与目标用户兴趣相似的用户)的偏好信息产生对目标用户的推荐列表。关于协同过滤的一个经典的例子就是看电影。如果你不知道哪一部电影是自己喜欢的或者评分比较高的，

2017-05-03 22:34:10 476

转载 scala--快速了解Breeze

来源：http://blog.csdn.net/zhuqing2020/article/details/37605553https://github.com/scalanlp/breeze/wiki/Quickstart点击打开链接https://github.com/scalanlp/breeze/wiki/Linear-Algebra-Cheat-Sheet点击

2017-05-02 14:39:40 3697

智慧与美貌并存