2017年04月_小丁丁_ddxdd

转载 spark厦大----决策树分类器--spark.mllib

来源：http://mocom.xmu.edu.cn/article/show/585808932b2730e00d70fa02/0/1一、方法简介决策树（decision tree）是一种基本的分类与回归方法，这里主要介绍用于分类的决策树。决策树模式呈树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。学习时利用训练数据，

2017-04-30 23:05:39 704

转载 Scala入门到精通——第五节函数与闭包

来源：http://blog.csdn.net/lovehuangjiaju/article/details/46992275本节主要内容（一）函数字面量（值函数）（二）匿名函数（三）函数的简化（四）函数参数（四）闭包函数字面量（值函数）函数字面量（function literal），也称值函数（function values），指的是函数可以赋值给

2017-04-29 22:37:57 236

转载 spark厦大-----逻辑斯蒂回归分类器--spark.mllib

来源：http://mocom.xmu.edu.cn/article/show/58578f482b2730e00d70f9fc/0/1方法简介逻辑斯蒂回归（logistic regression）是统计学习中的经典分类方法，属于对数线性模型。logistic回归的因变量可以是二分类的，也可以是多分类的。基本原理logistic分布设X是连续随机

2017-04-29 22:16:14 591

转载 Scala入门到精通——第四节 Set、Map、Tuple、队列操作实战

来源：http://blog.csdn.net/lovehuangjiaju/article/details/46984575本节主要内容mutable、immutable集合Set操作实战Map操作实战Tuple操作实战队列操作实战栈操作实战mutable、immutable集合以下内容来源于Scala官方文档：http://www.scala-lan

2017-04-28 22:56:57 304

转载 Linux---Linux下文本文件合并和去除重复操作

来源：http://blog.csdn.net/hanglinux/article/details/50569011Linux下处理文本的能力还是很强大的。本文主要涉及到的命令为cat uniq sort。一命令简单介绍cat：将文本文件读出来 (concatenate files and print on the standard output)文件去重合

2017-04-28 18:45:29 650

转载 spark厦大----分类与回归 - spark.mllib

来源：http://mocom.xmu.edu.cn/article/show/584d1cf7bd8177b41ebbd8bb/0/1一、分类算法概述分类是一种重要的机器学习和数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型(也常常称作分类器)，该模型能把未知类别的样本映射到给定类别中的一种技术。分类的具体规则可描述如下：给定一组训练数据的集合T(Trai

2017-04-28 17:47:17 323

转载 spark厦大-------主成分分析（PCA）

来源：http://mocom.xmu.edu.cn/article/show/58627a2faa2c3f280956e7ae/0/1二、主成分分析（PCA）1、概念介绍主成分分析（PCA）是一种对数据进行旋转变换的统计学方法，其本质是在线性空间中进行一个基变换，使得变换后的数据投影在一组新的“坐标轴”上的方差最大化，随后，裁剪掉变换后方差很小的“坐标轴”，剩下的新

2017-04-27 22:26:38 1523

转载 spark厦大---奇异值分解（SVD）

来源：http://mocom.xmu.edu.cn/article/show/586279a4aa2c3f280956e7ad/0/1MLlib中的特征降维方法降维（Dimensionality Reduction）是机器学习中的一种重要的特征处理手段，它可以减少计算过程中考虑到的随机变量（即特征）的个数，其被广泛应用于各种机器学习问题中，用于消除噪声、对抗数据稀疏

2017-04-27 22:22:09 1139

转载 spark厦大----基本的统计工具（2） - spark.mllib

来源：http://mocom.xmu.edu.cn/article/show/584d1fc5bd8177b41ebbd8bc/0/1五、假设检验 Hypothesis testing Spark目前支持皮尔森卡方检测（Pearson’s chi-squared tests），包括“适配度检定”（Goodness of fit）以及“独立性检定”（independenc

2017-04-25 13:53:26 1007

转载 spark厦大----基本的统计工具（1） - spark.mllib

来源：http://mocom.xmu.edu.cn/article/show/58482e8be083c990247075a8/0/1给定一个数据集，数据分析师一般会先观察一下数据集的基本情况，称之为汇总统计或者概要性统计。一般的概要性统计用于概括一系列观测值，包括位置或集中趋势（比如算术平均值、中位数、众数和四分位均值），展型（比如四分位间距、绝对偏差和绝对距离偏差、各阶矩等），统计离

2017-04-25 13:35:14 499

转载 spark厦大---MLlib基本数据类型(2)

来源：http://mocom.xmu.edu.cn/article/show/58482057e083c990247075a7/0/1四、分布式矩阵（Distributed Matrix）分布式矩阵由长整型的行列索引值和双精度浮点型的元素值组成。它可以分布式地存储在一个或多个RDD上，MLlib提供了三种分布式矩阵的存储方案：行矩阵RowMatrix，索引行矩阵Ind

2017-04-25 08:24:22 600

转载厦大spark-----MLlib基本数据类型(1)

来源：http://mocom.xmu.edu.cn/article/show/58481eb2e083c990247075a5/0/1MLLib提供了一序列基本数据类型以支持底层的机器学习算法。主要的数据内心包括：本地向量、标注点（Labeled Point）、本地矩阵、分布式矩阵等。单机模式存储的本地向量与矩阵，以及基于一个或多个RDD的分布式矩阵。其中本地向量与本地矩阵作为公

2017-04-24 22:07:30 667

转载 Spark程序运行常见错误解决方法以及优化

来源：http://blog.csdn.net/sdujava2011/article/details/49796439一.org.apache.spark.shuffle.FetchFailedException1.问题描述这种问题一般发生在有大量shuffle操作的时候,task不断的failed,然后又重执行，一直循环下去，非常的耗时。

2017-04-24 16:43:11 894

转载厦大spark----Spark MLlib介绍

来源：http://mocom.xmu.edu.cn/article/show/584816afe083c990247075a2/0/1一、什么是机器学习机器学习可以看做是一门人工智能的科学，该领域的主要研究对象是人工智能。机器学习利用数据或以往的经验，以此优化计算机程序的性能标准。一种经常引用的英文定义是：A computer program is said to l

2017-04-24 14:53:10 1625

转载三种特征选择方法及Spark MLlib调用实例（Scala/Java/python）

来源：http://blog.csdn.net/liulingyuan6/article/details/53413728VectorSlicer算法介绍： VectorSlicer是一个转换器输入特征向量，输出原始特征向量子集。VectorSlicer接收带有特定索引的向量列，通过对这些索引的值进行筛选得到新的向量集。可接受如下两种索引1

2017-04-24 14:29:33 1115

转载二十种特征变换方法及Spark MLlib调用实例（Scala/Java/python）（二）

来源：http://blog.csdn.net/liulingyuan6/article/details/53410832VectorIndexer算法介绍： VectorIndexer解决数据集中的类别特征Vector。它可以自动识别哪些特征是类别型的，并且将原始值转换为类别指标。它的处理流程如下：1.获得一个向量类型的输入以及maxCa

2017-04-24 14:08:05 1148

转载 spark--二十种特征变换方法及Spark MLlib调用实例（Scala/Java/python）（一）

来源：http://blog.csdn.net/liulingyuan6/article/details/53397780Tokenizer（分词器）算法介绍： Tokenization将文本划分为独立个体（通常为单词）。下面的例子展示了如何把句子划分为单词。 RegexTokenizer基于正则表达式提供更多的划分选项。默认

2017-04-24 14:06:57 1039

转载 Pipeline详解及Spark MLlib使用示例(Scala/Java/Python)

来源：http://blog.csdn.net/liulingyuan6/article/details/53576550本文中，我们介绍机器学习管道的概念。机器学习管道提供一系列基于数据框的高级的接口来帮助用户建立和调试实际的机器学习管道。管道里的主要概念 MLlib提供标准的接口来使联合多个算法到单个的管道或者工作流，管道的概念源于scikit-

2017-04-24 13:57:50 2002

转载 Spark机器学习库（MLlib）官方指南手册中文版

来源：http://blog.csdn.net/liulingyuan6/article/details/53582300Spark机器学习库(MLlib)指南 MLlib是Spark里的机器学习库。它的目标是使实用的机器学习算法可扩展并容易使用。它提供如下工具： 1.机器学习算法：常规机器学习算法包括分类、回归、聚类和协同过滤。

2017-04-24 13:20:43 904

转载 scala spark 机器学习初探

来源：http://www.cnblogs.com/realzjx/p/5854425.htmlTransformer：是一个抽象类包含特征转换器，和最终的学习模型，需要实现transformer方法通常transformer为一个RDD增加若干列，最终转化成另一个RDD， 1. 特征转换器通常处理一个dataset，把其中一列数据转化成一列新的数据。并且把新的数

2017-04-19 22:01:54 508

转载 scala--三种文本特征提取（TF-IDF/Word2Vec/CountVectorizer）及Spark MLlib调用实例（Scala/Java/python）

来源：http://blog.csdn.net/liulingyuan6/article/details/53390949 Spark MLlib 提供三种文本特征提取方法，分别为TF-IDF、Word2Vec以及CountVectorizer其各自原理与调用代码整理如下：TF-IDF算法介绍：词频－逆

2017-04-19 12:13:48 2030

转载 scala--标签和索引的转化：StringIndexer- IndexToString-VectorIndexer

2017-04-19 09:39:02 2917

转载 Hadoop基础---hadoop fs 命令

来源：http://blog.csdn.net/wuwenxiang91322/article/details/221664231，Hadoop fs –fs [local | ]：声明hadoop使用的文件系统，如果不声明的话，使用当前配置文件配置的，按如下顺序查找：hadoop jar里的hadoop-default.xml->$HADOOP_CONF_DIR下

2017-04-12 22:52:11 352

转载 Spark RDD API详解(一) Map和Reduce

来源：http://blog.csdn.net/jewes/article/details/39896301本文由cmd markdown编辑，原始链接：https://www.zybuluo.com/jewes/note/35032 RDD是什么？RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简

2017-04-10 23:23:02 243

转载 scala--Scala 强大的集合数据操作示例

来源：http://blog.csdn.net/pzw_0612/article/details/45936165Scala是数据挖掘算法领域最有力的编程语言之一，语言本身是面向函数，这也符合了数据挖掘算法的常用场景：在原始数据集上应用一系列的变换，语言本身也对集合操作提供了众多强大的函数，本文将以List类型为例子，介绍常见的集合变换操作。一、常用操作符（操作符其实也

2017-04-09 23:50:34 299

转载 Scala入门到精通——第三节 Array、List

来源：http://blog.csdn.net/lovehuangjiaju/article/details/46963721本节主要内容数组操作实战列表List操作实战数组操作实战1 定长数组//定义一个长度为10的数值数组scala> val numberArray=new Array[Int](10)numberArray: Array[Int]

2017-04-05 23:15:14 336

转载 Scala入门到精通—— 第二节Scala基本类型及操作、程序控制结构

来源：http://blog.csdn.net/lovehuangjiaju/article/details/46953423整数类型变量定义：//16进制定义法scala> val x=0x29x: Int = 41//十进制定义法scala> val x=41x: Int = 41//八进制定义法scala> 051res0: Int = 41浮点类型变量定

2017-04-05 23:13:47 490

转载 Scala入门到精通——第一节 Scala语言初步

来源：http://blog.csdn.net/lovehuangjiaju/article/details/477463911 变量定义//声明一个val变量//与java final关键字声明的变量一样//一旦被赋值，便不能更改//Scala会帮我们进行类型推断scala> val helloString="Hello World"helloString: Str

2017-04-04 23:34:25 417

转载大数据层--HDFS基本操作

hdfs dfs -ls /dw/st/st02_eqt_f | wc –l

2017-04-01 19:46:59 580

智慧与美貌并存