大数据
邓闰土
我的简书 http://www.jianshu.com/u/f109f1576a46
展开
-
Data Types - MLlib-Distributed matrix
Distributed matrix分布式矩阵具有long类型的行和列索引和double类型值,分布式存储在一个或多个RDD中。选择正确的格式来存储大型和分布式矩阵是非常重要的。将分布式矩阵转换为不同的格式可能需要全局shuffle,代价非常大的。到目前为止,已经实现了三种类型的分布式矩阵。Distributed matrix 的基本类型是RowMatrix。A RowMatrix是没有有意义的行索翻译 2017-05-10 22:37:44 · 1798 阅读 · 0 评论 -
Cloudera Hadoop管理员(CCAH)&开发者(CCA)认证大纲
Cloudera Certified Administrator forApache Hadoop (CCA-500)Number of Questions: 60 questions Time Limit: 90 minutes Passing Score: 70% Language: English, Japanese Exam Sections and BlueprintHDFS (转载 2017-06-01 15:04:02 · 5605 阅读 · 1 评论 -
Data Types - Local matrix
局部矩阵局部矩阵具有整数类型的行和列索引和double类型的值,存储在单个节点上。MLlib支持密集矩阵,其入口值以列主序列存储在单个double元祖里,稀疏矩阵的非零入口值以列主要顺序存储在压缩稀疏列(CSC)格式中。例如,以下密集矩阵 存储在一维数组中。[1.0, 3.0, 5.0, 2.0, 4.0, 6.0] 矩阵的大小为(3, 2)⎛1.0 3.0⎞ ⎜5.0 2.0⎟ ⎝4.0 6.翻译 2017-05-09 16:37:26 · 1513 阅读 · 0 评论 -
Data Types - MLlib-labeled point
labeled pointlaneled point是与标签/响应相关联的局部矢量(密集或稀疏)。在MLlib中,标注点用于监督学习算法。我们使用double 存储标签,所以我们可以在回归和分类中使用标记点。对于二进制分类,标签应为0(负)或1(正)。对于多类分类,标签应该是从零开始的类索引:0, 1, 2, …。Scalalabeled point 的case class是 LabeledPoin翻译 2017-05-09 14:54:39 · 1735 阅读 · 0 评论 -
Data Types - MLlib-本地向量
Data Types - MLlibLocal vectorLabeled pointLocal matrixDistributed matrix RowMatrixIndexedRowMatrixCoordinateMatrixBlockMatrixMLlib支持存储在单个节点上的本地向量和矩阵,以及由一个或多个RDD支持的分布式矩阵。局部向量和局部矩阵是用作公共接口的简单数据模翻译 2017-05-09 11:37:52 · 1516 阅读 · 0 评论 -
环境测试
测试环境OS:win10CRT工具:xshell远程主机vpn:公司OA VPN远程主机地址:192.168.0.36 root/hadoop准备 链接至远程主机链接到远程主机上测试项目HADOOP在root用户下切换至hdfs用户[root@sandbox ~]# su hdfs[hdfs@sandbox root]$ hadoop hdfs 常用原创 2017-05-08 09:55:44 · 281 阅读 · 0 评论 -
Spark hello word(加载本地文件和加载hdfs文件)
本节内容主要完成: 使用sparkshell记载本地文件和hdfs文件spark处理的文件可能存在于本地文件系统中,也可能存在分布式文件系统中本地文件加载创建一个测试文件[root@sandbox home]# cd /home/guest/// 在guest 目录下创建一个文件夹[root@sandbox guest]# mkdir erhuan// 在 新建的文件夹中创建一原创 2017-05-08 09:55:47 · 2911 阅读 · 0 评论 -
IDEA MAVEN SPARK SCALA打包办法
采用jar提交集群模式流程为:本地完成代码开发 –> 本地编译打包 -> 提交集群执行 创建三层包需要先创建三层package(eg:cn.nokia.bigdata),然后在package下创建object,如下图Paste_Image.png稍微修改了下官方例子package cn.nokia.bigdataimport org.apache.spark.{SparkCon原创 2017-05-08 09:56:15 · 3527 阅读 · 0 评论 -
IDEA SPARK SCALA 搭建简单的helloworld
新建maven工程:在第一次使用idea时,如下图选择新建工程Paste_Image.png如下图,选择maven工程,sdk通过new,选择安装的jdk,然后点击next:Paste_Image.png填写groupid和artifactidPaste_Image.png项目名根据需要可修改Paste_Image.pngimport maven原创 2017-05-08 09:56:12 · 7108 阅读 · 6 评论 -
Spark 开发编译器搭建IDE(IDEA)
IntelliJ IDEA 的安装采用官方免费版就可以满足开发需求。登陆IntelliJ IDEA,下载最新免费版,然后按照指引,安装在本地计算机即可。IDE配置第一次使用时,出现以下指引时,按照下图操作:(1) 选择UI主题,随意选择一个,然后nextPaste_Image.png(2) 默认插件选择,直接点击nextPaste_Image.png(3) 语言原创 2017-05-08 09:56:09 · 649 阅读 · 0 评论 -
DB、ETL、DW、OLAP、DM、BI关系结构图
DB、ETL、DW、OLAP、DM、BI关系结构图 在此大概用口水话简单叙述一下他们几个概念:(1)DB/Database/数据库——这里一般指的就是OLTP数据库,在线事物数据库,用来支持生产的,比如超市的买卖系统。DB保留的是数据信息的最新状态,只有一个状态!比如,每天早上起床洗脸照镜子,看到的就是当时的状态,至于之前的每天的状态,不会出现的你的眼前,这个眼前就是db。(2)DW/Data W转载 2017-07-24 13:01:07 · 1053 阅读 · 0 评论