自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

智慧与美貌并存

丁丁是也

  • 博客(16)
  • 收藏
  • 关注

转载 MLlib--多层感知机(MLP)算法原理及Spark MLlib调用实例(Scala/Java/Python)

来源:http://blog.csdn.net/liulingyuan6/article/details/53432429多层感知机算法简介:        多层感知机是基于反向人工神经网络(feedforwardartificial neural network)。多层感知机含有多层节点,每层节点与网络的下一层节点完全连接。输入层的节点代表输入数据,其他层的节

2017-05-12 09:06:55 2204

转载 LDA主题模型评估方法--Perplexity

来源:http://blog.csdn.net/pirage/article/details/9368535在LDA主题模型之后,需要对模型的好坏进行评估,以此依据,判断改进的参数或者算法的建模能力。Blei先生在论文《Latent Dirichlet Allocation》实验中用的是Perplexity值作为评判标准。一、Perplexity定义源于

2017-05-10 22:30:35 5504

转载 scala---文档主题生成模型(LDA)算法原理及Spark MLlib调用实例(Scala/Java/python)

来源:http://m.blog.csdn.net/article/details?id=53485305算法介绍:LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择

2017-05-10 22:29:50 1395

转载 Scala数据类型

来源:http://www.yiibai.com/scala/scala_data_types.htmlScala的数据类型全部相同于Java中,具有相同的内存占用和精度。以下表是有关可在Scala中所有的数据类型的细节:数据类型描述Byte8位有符号值。范围从-128到127Short16位有符号值。

2017-05-07 22:44:05 400

转载 spark厦大---决策树分类器 -- spark.ml

来源:http://mocom.xmu.edu.cn/article/show/58667ae3aa2c3f280956e7b0/0/1一、方法简介​ 决策树(decision tree)是一种基本的分类与回归方法,这里主要介绍用于分类的决策树。决策树模式呈树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。学习时利用训练数

2017-05-04 22:52:24 1941

转载 hive--Hive之数据倾斜的原因和解决方法

来源:https://yq.aliyun.com/articles/60908数据倾斜在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。

2017-05-04 22:50:21 14879 2

转载 spark厦大----逻辑斯蒂回归分类器--spark.ml

来源:http://mocom.xmu.edu.cn/article/show/586679ecaa2c3f280956e7af/0/1方法简介​ 逻辑斯蒂回归(logistic regression)是统计学习中的经典分类方法,属于对数线性模型。logistic回归的因变量可以是二分类的,也可以是多分类的。基本原理logistic分布​ 设X是连续随机变量,X

2017-05-04 22:45:39 2181

转载 spark厦大---标签和索引的转化:StringIndexer- IndexToString-VectorIndexer

来源:http://mocom.xmu.edu.cn/article/show/587f11deaa2c3f280956e7ba/0/1Spark的机器学习处理过程中,经常需要把标签数据(一般是字符串)转化成整数索引,而在计算结束又需要把整数索引还原为标签。这就涉及到几个转换器:StringIndexer、 IndexToString,OneHotEncoder,以及针对类别特

2017-05-04 22:44:16 2002

转载 spark厦大---Word2Vec--spark.ml

来源:http://mocom.xmu.edu.cn/article/show/587f103faa2c3f280956e7b6/0/1Word2Vec 是一种著名的 词嵌入(Word Embedding) 方法,它可以计算每个单词在其给定语料库环境下的 分布式词向量(Distributed Representation,亦直接被称为词向量)。词向量表示可以在一定程度上刻画

2017-05-04 22:43:05 2923

转载 spark厦大---特征抽取:CountVectorizer -- spark.ml

来源:http://mocom.xmu.edu.cn/article/show/587f1974aa2c3f280956e7bb/0/1CountVectorizer和CountVectorizerModel旨在通过计数来将一个文档转换为向量。当不存在先验字典时,Countvectorizer可作为Estimator来提取词汇,并生成一个CountVectorizerModel

2017-05-04 22:41:57 1780

转载 spark厦大----特征抽取: TF-IDF -- spark.ml

来源:http://mocom.xmu.edu.cn/article/show/58588d4e2b2730e00d70fa03/0/1这一部分我们主要介绍和特征处理相关的算法,大体分为以下三类:特征抽取:从原始数据中抽取特征特征转换:特征的维度、特征的转化、特征的修改特征选取:从大规模特征集中选取一个子集特征抽取 Feature ExtractorsTF-IDF (H

2017-05-04 22:41:00 1439

转载 spark厦大---机器学习工作流(ML Pipelines)—— spark.ml包

来源:http://mocom.xmu.edu.cn/article/show/5858a6062b2730e00d70fa06/0/1一个典型的机器学习过程从数据收集开始,要经历多个步骤,才能得到需要的输出。这非常类似于流水线式工作,即通常会包含源数据ETL(抽取、转化、加载),数据预处理,指标提取,模型训练与交叉验证,新数据预测等步骤。在介绍工作流之前,我们先来了解几个

2017-05-04 22:39:23 1205

转载 spark厦大----KMeans聚类算法 -- spark.mllib

来源:http://mocom.xmu.edu.cn/article/show/586df21caa2c3f280956e7b3/0/1聚类(Clustering) 是机器学习中一类重要的方法。其主要思想使用样本的不同特征属性,根据某一给定的相似度度量方式(如欧式距离)找到相似的样本,并根据距离将样本划分成不同的组。聚类属于典型的无监督学习(Unsupervised Learn

2017-05-03 22:48:52 2125

转载 Scala入门到精通——第六节:类和对象(一)

来源:http://blog.csdn.net/lovehuangjiaju/article/details/47009607本节主要内容1 类定义、创建对象 2 主构造器 3 辅助构造器类定义、创建对象//采用关键字class定义class Person { //类成员必须初始化,否则会报错 //这里定义的是一个公有成员 var

2017-05-03 22:46:25 311

转载 spark厦大-----协同过滤算法 -- spark.mllib包

来源:http://mocom.xmu.edu.cn/article/show/586cac76aa2c3f280956e7b2/0/1一、方法简介​ 协同过滤是一种基于一组兴趣相同的用户或项目进行的推荐,它根据邻居用户(与目标用户兴趣相似的用户)的偏好信息产生对目标用户的推荐列表。关于协同过滤的一个经典的例子就是看电影。如果你不知道哪一部电影是自己喜欢的或者评分比较高的,

2017-05-03 22:34:10 476

转载 scala--快速了解Breeze

来源:http://blog.csdn.net/zhuqing2020/article/details/37605553https://github.com/scalanlp/breeze/wiki/Quickstart点击打开链接https://github.com/scalanlp/breeze/wiki/Linear-Algebra-Cheat-Sheet点击

2017-05-02 14:39:40 3697

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除