2017年11月_dian张

原创 RDD 数据操作主要有两个动作

Transformations(转换)：return a new RDD map(f : T ) U) : RDD[T] ) RDD[U]返回一个新的分布式数据集，由每个原元素经过func函数转换后组成 filter(f : T ) Bool) : RDD[T] ) RDD[T]返回一个新的数据集，由经过func函数后返回值为true的原元素组成 flatMap(f : T ) Seq[U])

2017-11-30 15:53:33 1616

原创什么是RDD以及如何创建RDD

RDD全称Resilient Distributed DataSets，弹性的分布式数据集。是Spark的核心内容。 RDD是只读的，不可变的数据集，也拥有很好的容错机制。他有5个主要特性 - A list of partitions 分片列表，数据能为切分才好做并行计算 - A function for computing each split 一个函数计算一个分片 - A list of

2017-11-30 15:45:41 1199

原创 spark streaming 获取数据方式

推模式(Flume push SparkStreaming) VS 拉模式（SparkStreaming poll Flume）采用推模式：推模式的理解就是Flume作为缓存，存有数据。监听对应端口，如果服务可以链接，就将数据push过去。(简单，耦合要低)，缺点是SparkStreaming 程序没有启动的话，Flume端会报错，同时会导致Spark Streaming 程序来不及消费的情况。

2017-11-30 15:37:05 770

原创解析xml

package com.laiwei.lwiot.controller.bean;import org.junit.Test;import org.w3c.dom.Element;import org.w3c.dom.Node;import org.w3c.dom.NodeList;import javax.xml.parsers.DocumentBuilder;import javax.x

2017-11-30 15:36:17 116

原创 sql占用空间大小

查询所有数据库占用磁盘空间大小的SQL语句：select TABLE_SCHEMA, concat(truncate(sum(data_length)/1024/1024,2),' MB') as data_size,concat(truncate(sum(index_length)/1024/1024,2),'MB') as index_sizefrom information_schema.

2017-11-30 15:34:57 580

原创 hive的理解

hive主要职责把HQL翻译成Mapper-Reducer的代码，并且可能产生很多MapReduce的JOB。把生成的MapReduce代码及相关资源打包成jar并发布到Hadoop集群中运行（这一切都是自动的）。也就是说，通过hql可以实现map_reduce的代码。 hive如何访问HDFS的数据 Metastore就是保存这些元数据信息的。Hive通过访

2017-11-29 15:01:57 319

原创安装hive遇到的错误

Hive2：Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient解决办法hive.metastore.schema.verificationset 为false<property> <name>hive.metastore.schema.verification</nam

2017-11-29 11:43:25 245

原创 HDFS的一些理解

HDFS是一个分布式存储文件系统 1.保存多个副本，且提供容错机制，副本丢失或宕机自动恢复。默认存3份。一个机架上保存两个，其他机架保存一个。 NameNode 是名称管理节点：负责维护整个hdfs文件系统的目录树，以及每一个路径（文件）所对应的数据块信息（blockid及所在的datanode服务器）datanode是数据节点：每一个block都可以在多个datanode上存储多个副本（副

2017-11-27 15:56:32 338

原创 centos 配置无密登录

ssh-keygen一直回车键就OK了cd .sshtouch authorized_keyscat id_rsa.pub > authorized_keys chmod 600 authorized_keys

2017-11-27 10:31:28 291

原创运行hadoop wordcount

版本 hadoop2.6.5 java1.8 1。需要先创建输入目录以及输出目录，由于hadoop1.X版本与2.x不同，下面是2.x的命令创建HDFS目录bin/hdfs dfs -mkdir -p /input将数据放入到HDFS目录bin/hdfs dfs -put /root/data /input提交程序到hadoophadoop jar WordCount.jar

2017-11-22 14:40:01 178

dian张