- 博客(10)
- 收藏
- 关注
原创 RDD 数据操作主要有两个动作
Transformations(转换):return a new RDD map(f : T ) U) : RDD[T] ) RDD[U]返回一个新的分布式数据集,由每个原元素经过func函数转换后组成 filter(f : T ) Bool) : RDD[T] ) RDD[T]返回一个新的数据集,由经过func函数后返回值为true的原元素组成 flatMap(f : T ) Seq[U])
2017-11-30 15:53:33 1616
原创 什么是RDD以及如何创建RDD
RDD全称Resilient Distributed DataSets,弹性的分布式数据集。是Spark的核心内容。 RDD是只读的,不可变的数据集,也拥有很好的容错机制。他有5个主要特性 - A list of partitions 分片列表,数据能为切分才好做并行计算 - A function for computing each split 一个函数计算一个分片 - A list of
2017-11-30 15:45:41 1199
原创 spark streaming 获取数据方式
推模式(Flume push SparkStreaming) VS 拉模式(SparkStreaming poll Flume) 采用推模式:推模式的理解就是Flume作为缓存,存有数据。监听对应端口,如果服务可以链接,就将数据push过去。(简单,耦合要低),缺点是SparkStreaming 程序没有启动的话,Flume端会报错,同时会导致Spark Streaming 程序来不及消费的情况。
2017-11-30 15:37:05 770
原创 解析xml
package com.laiwei.lwiot.controller.bean;import org.junit.Test;import org.w3c.dom.Element;import org.w3c.dom.Node;import org.w3c.dom.NodeList;import javax.xml.parsers.DocumentBuilder;import javax.x
2017-11-30 15:36:17 116
原创 sql占用空间大小
查询所有数据库占用磁盘空间大小的SQL语句:select TABLE_SCHEMA, concat(truncate(sum(data_length)/1024/1024,2),' MB') as data_size,concat(truncate(sum(index_length)/1024/1024,2),'MB') as index_sizefrom information_schema.
2017-11-30 15:34:57 580
原创 hive的理解
hive主要职责 把HQL翻译成Mapper-Reducer的代码,并且可能产生很多MapReduce的JOB。 把生成的MapReduce代码及相关资源打包成jar并发布到Hadoop集群中运行(这一切都是自动的)。 也就是说,通过hql可以实现map_reduce的代码。 hive如何访问HDFS的数据 Metastore就是保存这些元数据信息的。Hive通过访
2017-11-29 15:01:57 319
原创 安装hive遇到的错误
Hive2:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient解决办法hive.metastore.schema.verificationset 为false<property> <name>hive.metastore.schema.verification</nam
2017-11-29 11:43:25 245
原创 HDFS的一些理解
HDFS是一个分布式存储文件系统 1.保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。一个机架上保存两个,其他机架保存一个。 NameNode 是名称管理节点:负责维护整个hdfs文件系统的目录树,以及每一个路径(文件)所对应的数据块信息(blockid及所在的datanode服务器)datanode是数据节点:每一个block都可以在多个datanode上存储多个副本(副
2017-11-27 15:56:32 338
原创 centos 配置无密登录
ssh-keygen一直回车键就OK了cd .sshtouch authorized_keyscat id_rsa.pub > authorized_keys chmod 600 authorized_keys
2017-11-27 10:31:28 291
原创 运行hadoop wordcount
版本 hadoop2.6.5 java1.8 1。需要先创建输入目录以及输出目录,由于hadoop1.X版本与2.x不同, 下面是2.x的命令创建HDFS目录bin/hdfs dfs -mkdir -p /input将数据放入到HDFS目录bin/hdfs dfs -put /root/data /input提交程序到hadoophadoop jar WordCount.jar
2017-11-22 14:40:01 178
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人