2016年08月_千寻千梦

原创 Spark2.0机器学习系列之7：多类分类问题（方法归总和分类结果评估）

One-vs-Rest classifier将只能用于二分问题的分类方法扩展到多类Spark中那些方法可以用于多类分类多类分类结果评估（MulticlassClassificationEvaluator类）在前面一篇文章里面介绍的关于二分问题的评估方法，部分评估方法可以延伸到多类分类为问题。这些概念可以参考下面的文章：（http://blog.csdn.net/qq_34531825/a

2016-08-31 18:04:25 6400 2

原创 Spark2.0机器学习系列之6： MLPC（多层神经网络）

Spark2.0 MLPC（多层神经网络分类器）算法概述 MultilayerPerceptronClassifier（MLPC）这是一个基于前馈神经网络的分类器，它是一种在输入层与输出层之间含有一层或多层隐含结点的具有正向传播机制的神经网络模型。中间的节点使用sigmoid （logistic）函数，输出层的节点使用softmax函数

2016-08-31 09:11:16 8997

原创 Spark2.0机器学习系列之5：GBDT（梯度提升决策树）、GBDT与随机森林差异、参数调试及Scikit代码分析

GBDT概念与随机森林的差异 Spark2.0中参数调试

2016-08-30 09:04:33 19615 5

原创 Spark2.0机器学习系列之4：随机森林介绍、关键参数分析

随机森林算法介绍 Spark2.0中的参数设置代码分析

2016-08-29 14:19:32 8639

原创 PCA主成份分析（Spark 2.0）

Spark 2.0 Scikit PCA 主成分个数选择

2016-08-28 19:15:05 4473 4

原创 Spark2.0机器学习系列之1：基于Pipeline、交叉验证、ParamMap的模型选择和超参数调优

ML Tuning: model selection and hyperparameter tuning 交叉验证 crossValiation spark ParamMap 参数选择和调优K 折交叉验证Spark Cross Validation 代码

2016-08-27 11:44:55 7947 1

原创 Spark2.0机器学习系列之3：决策树及Spark 2.0-MLlib、Scikit代码分析

决策树种类差别Spark2.0 MLLib中决策树代码分析，参数选取，剪枝

2016-08-26 18:43:45 8182 3

转载基于矩阵分解的推荐算法-梯度下降算法-非并行计算[转载]

转载自博客园，请链接原文查看： http://www.cnblogs.com/kobedeshow/p/3651833.html?utm_source=tuicool&utm_medium=referral本文将要讨论基于矩阵分解的推荐算法，这一类型的算法通常会有很高的预测精度，也活跃于各大推荐系统竞赛上面，前段时间的百度电影推荐最终结果的前10名貌似都是把矩阵分解作为一个单模型，最后各种ense

2016-08-26 18:33:17 6156

原创 Spark常用设置，API和错误解决方法

Spark常用设置，常用API使用，及错误解决办法

2016-08-26 11:30:59 1903

原创 Spark GraphX学习笔记

Spark 2.0Graphx学习笔记概述、图计算应用场景、Spark中图的建立及图的基本操作利用顶点和边RDD建立一个简单的属性图、读取文件建立图三种视图及操作、Spark GraphX中的图的函数大全、结构操作子图subgraph、图的基本信息统计-度计算、Join 连接、相邻聚合消息聚合图算法工具包、数三角形、连通图、PageRank让链接来投票pregel、应用实例一Louvai

2016-08-26 08:42:45 19119

原创 Spark2.0 协同过滤推荐

Spark合同过滤 ALS算法代码参数选择

2016-08-25 23:17:18 3568 4

原创 Spark2.0机器学习系列之2：Logistic回归及Binary分类（二分问题）结果评估

参数设置α：梯度上升算法迭代时候权重更新公式中包含 α ： http://blog.csdn.net/lu597203933/article/details/38468303 为了更好理解 α和最大迭代次数的作用，给出Python版的函数计算过程。# 梯度上升算法-计算回归系数 # 每个回归系数初始化为1# 重复R次：# 计算整个数据集的梯度# 使用α*梯度更新回

2016-08-25 12:45:53 21247 5

原创 Spark2.0 Pipelines,Java版

概述MLlib中众多机器学习算法API在单一管道或工作流中更容易相互结合起来使用。管道的思想主要是受到scikit-learn库的启发。 ML API使用Spark SQL中的DataFrame作为机器学习的数据集。DataFrame不同的列可以分别存储文本，特征向量，真实的Lables，和预测值。Transformer:一个Transformer是一个算法，可以将一个DataFrame转换

2016-08-25 12:40:32 911

转载 Java常见小功能备忘录

Java常见小功能备忘录

2016-08-24 22:49:33 3495

翻译 Spark 2.0 -SQL 学习笔记

Spark SQL是Spark结构化数据处理模块，不同于基本的Spark RDD API，Spark SQL提供了更多数据结构和计算功能，并使用了这些丰富的信息进行了额外的优化。可以通过SQL和DataSet API和Spark SQL交互。与不同API/编程语言无关，使用了相同的执行引擎。

2016-08-24 08:29:05 2488

原创 Eclipse中写Spark代码

环境设置与运行（1）将Spark中的Jar包加到Eclipse 的Build Path中： 1.3版本如下图，只需要加载5个jar，2.0版本需要加载更多jar （2）编写代码，Export为jar包，注意要选择main函数：（3）使用spark-submit 命令运行： ./spark-submit /home/hadoop/spark/mycode/MydirstJob.ja

2016-08-23 20:47:02 868

转载 Eclipse缺少Jar包解决办法

如：The type org.apache.commons.logging.Log cannot be resolved. It is indirectly referenced from required .class files缺少 org.apache.commons.logging.Log 对应的jar包，用ctrl+shift+t 找到jar包拷到对应报错工程即可解决

2016-08-22 17:56:01 9129 1

原创 Hadoop-Pig 学习笔记

本文是一个学习笔记，并不包含完整的Pig（Pig Latin）内容，仅仅列出了一些本人在学习过程中觉得重要的内容，更详细的内容参考《Hadoop权威指南》、《实战Hadoop》。Pig概述Pig是一种探索大规模数据集的脚本语言。 Pig相当于一个Hadoop的客户端。 Pig提供了丰富的数据结构，和一套强大的数据变换操作。MapReduce的一个缺点是开发周期太长，Pig Latin代码能轻松处

2016-08-22 15:40:00 3113

原创 MapReduce小功能备忘录

使用文件作为Mapper的输入，需要完成下面两部分（1）加入路径（2）选择输入文件格式//FileInputFormat.addInputPath(job, new Path(args[0]));job.setInputFormatClass(SequenceFileInputFormat.class);

2016-08-21 23:09:29 678

转载 Hadoop中新老版本MapReduce 中API对比

新老版本MapReduce 中InputFormat、OutputFormat，Job API 对比，以JobBuilder函数为例：

2016-08-21 20:56:25 1538

转载 Java 内部类

java

2016-08-21 16:19:17 668

转载 Hadoop中的辅助类ToolRunner和Configured的用法[转载]

hadoop ToolRunner 综合应用

2016-08-21 14:14:51 3540

转载 ava中extends 与 implement 区别(转载）

Java

2016-08-21 10:07:41 709

原创 Hive 学习笔记

将计算（查询）结果保存到一个新表中//原始数据表hive> describe widgets2;id int price double amount int //目标表创建hive> create table sales(id int,

2016-08-20 22:52:46 1129

原创 Sqoop学习笔记

Sqoop学习笔记1）列出数据库 sqoop list-databases –connect jdbc:mysql://localhost/ -username root -P 2）将数据库导入HDFS ： sqoop import –connect jdbc:mysql://localhost/mytest_sqoop –table widgets -m 2 -username root -P

2016-08-20 20:26:45 809

转载 HBase学习笔记

HBase是一个在HDFS上开发的面向列的分布式数据库。实时随机读/写大规模数据集。实现一个Master节点协调管理一个或多个Regionserver从属机。 HBase主控机（Master)负责启动（bootstrap）和全新的安装把区域分配给注册的Regionserver，恢复Regionserver的故障。HBase依赖于ZooKeeper。物理模型HBase是按照列存储的稀疏行/列

2016-08-18 11:17:11 1076 1

qq_34531825的博客