自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

dian张

在路上。。。

  • 博客(10)
  • 收藏
  • 关注

原创 RDD 数据操作主要有两个动作

Transformations(转换):return a new RDD map(f : T ) U) : RDD[T] ) RDD[U]返回一个新的分布式数据集,由每个原元素经过func函数转换后组成 filter(f : T ) Bool) : RDD[T] ) RDD[T]返回一个新的数据集,由经过func函数后返回值为true的原元素组成 flatMap(f : T ) Seq[U])

2017-11-30 15:53:33 1616

原创 什么是RDD以及如何创建RDD

RDD全称Resilient Distributed DataSets,弹性的分布式数据集。是Spark的核心内容。 RDD是只读的,不可变的数据集,也拥有很好的容错机制。他有5个主要特性 - A list of partitions 分片列表,数据能为切分才好做并行计算 - A function for computing each split 一个函数计算一个分片 - A list of

2017-11-30 15:45:41 1199

原创 spark streaming 获取数据方式

推模式(Flume push SparkStreaming) VS 拉模式(SparkStreaming poll Flume) 采用推模式:推模式的理解就是Flume作为缓存,存有数据。监听对应端口,如果服务可以链接,就将数据push过去。(简单,耦合要低),缺点是SparkStreaming 程序没有启动的话,Flume端会报错,同时会导致Spark Streaming 程序来不及消费的情况。

2017-11-30 15:37:05 770

原创 解析xml

package com.laiwei.lwiot.controller.bean;import org.junit.Test;import org.w3c.dom.Element;import org.w3c.dom.Node;import org.w3c.dom.NodeList;import javax.xml.parsers.DocumentBuilder;import javax.x

2017-11-30 15:36:17 116

原创 sql占用空间大小

查询所有数据库占用磁盘空间大小的SQL语句:select TABLE_SCHEMA, concat(truncate(sum(data_length)/1024/1024,2),' MB') as data_size,concat(truncate(sum(index_length)/1024/1024,2),'MB') as index_sizefrom information_schema.

2017-11-30 15:34:57 580

原创 hive的理解

hive主要职责 把HQL翻译成Mapper-Reducer的代码,并且可能产生很多MapReduce的JOB。 把生成的MapReduce代码及相关资源打包成jar并发布到Hadoop集群中运行(这一切都是自动的)。 也就是说,通过hql可以实现map_reduce的代码。 hive如何访问HDFS的数据 Metastore就是保存这些元数据信息的。Hive通过访

2017-11-29 15:01:57 319

原创 安装hive遇到的错误

Hive2:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient解决办法hive.metastore.schema.verificationset 为false<property> <name>hive.metastore.schema.verification</nam

2017-11-29 11:43:25 245

原创 HDFS的一些理解

HDFS是一个分布式存储文件系统 1.保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。一个机架上保存两个,其他机架保存一个。 NameNode 是名称管理节点:负责维护整个hdfs文件系统的目录树,以及每一个路径(文件)所对应的数据块信息(blockid及所在的datanode服务器)datanode是数据节点:每一个block都可以在多个datanode上存储多个副本(副

2017-11-27 15:56:32 338

原创 centos 配置无密登录

ssh-keygen一直回车键就OK了cd .sshtouch authorized_keyscat id_rsa.pub > authorized_keys chmod 600 authorized_keys

2017-11-27 10:31:28 291

原创 运行hadoop wordcount

版本 hadoop2.6.5 java1.8 1。需要先创建输入目录以及输出目录,由于hadoop1.X版本与2.x不同, 下面是2.x的命令创建HDFS目录bin/hdfs dfs -mkdir -p /input将数据放入到HDFS目录bin/hdfs dfs -put /root/data /input提交程序到hadoophadoop jar WordCount.jar

2017-11-22 14:40:01 178

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除