LoneSurvivor的博客

一入通信深似海,从此红颜是路人

Java300学习笔记(8)—— 容器 LinkedList

1

2019-01-23 11:03:11

阅读数 5

评论数 0

内存计算框架Spark学习笔记(4)—— Spark Application 运行的两种方式 Client 和 Cluster

1 spark-submit 运行参数 [hadoop@node1 ~]$ spark-submit --help Usage: spark-submit [options] <app jar | python file>...

2019-01-22 21:58:24

阅读数 46

评论数 0

内存计算框架Spark学习笔记(3)—— Spark Application监控 HistoryServer 配置

1 Spark HistoryServer 配置 spark-env.sh SPARK_HISTORY_OPTS=-Dspark.history.fs.logDirectory=file:///home/hadoop/appsData/sparkData/historylogs spark...

2019-01-22 19:08:52

阅读数 17

评论数 0

内存计算框架Spark学习笔记(2)—— Spark RDD 五大特性

1 Spark RDD 的五个特点 一系列的分片,类似 Hadoop 中的split; 在每个分片都有一个函数去迭代计算它; 一系列的依赖; 对于一个 K-V 的 RDD 可以指定一个 partition,告诉它如何分片,常用的有 hash,range 数据本地性; ...

2019-01-22 12:14:11

阅读数 8

评论数 0

内存计算框架Spark学习笔记(1)—— Spark Standalone模式配置

1 Spark 和 MapReduce 对比 MapReduce Spark 数据存储结构:磁盘HDFS文件系统的 split 使用内存构建RDD 编程范式: Map + Redcuce DAG: Transformation + action 计算中间数据落磁盘,IO 即...

2019-01-21 22:22:50

阅读数 12

评论数 0

HBase学习笔记(2)—— HBase 数据检索和存储

1 HBase 结构 1.1 查看 zookeeper 存储的 Hbase 信息 [hadoop@node1 ~]$ zkCli.sh [zk: localhost:2181(CONNECTED) 1] ls / [zookeeper, hbase] [zk: localhost:2181(...

2019-01-21 16:20:39

阅读数 13

评论数 0

HBase学习笔记(5)—— 使用 BulkLoad 加载数据到 HBase 表

1 BulkLoad HBase 支持 bulk load 的入库方式,它是利用 hbase 的数据信息按照特定格式存储在 hdfs ,直接在 HDFS 中生成持久化的 HFile 数据格式 文件,然后上传至合适位置,即完成巨量数据快速入库的办法。配合 mapreduce完成,高效便捷,而且不占...

2019-01-21 15:38:49

阅读数 11

评论数 0

HBase学习笔记(4)—— HBase集成 MapRedue

1 HBase集成 MapRedue https://hbase.apache.org/book.html#mapreduce export HBASE_HOME=/home/hadoop/apps/hbase-1.2.0-cdh5.7.0 export HADOOP_HOME=/home/had...

2019-01-21 14:59:23

阅读数 18

评论数 0

HBase学习笔记(3)—— HBase架构深入剖析

1 Client 整个 HBase 集群的访问入口; 使用 HBase RPC 机制与 HMaster 和 HRegionServer 进行通信; 与 HMaster 进行通信进行管理类操作; 与 HRegionServer 进行数据读写类操作; 包含访问 HBase 的接口,并维护 cache...

2019-01-21 10:47:29

阅读数 13

评论数 0

HBase学习笔记(2)—— HBase Java API

1 添加依赖 <dependency> <groupId>org.apache.hbase</groupId> &am...

2019-01-21 10:22:18

阅读数 13

评论数 0

HBase学习笔记(1)—— HBase 介绍,安装

1

2019-01-20 16:15:39

阅读数 15

评论数 0

Hive学习笔记(16)- Hive 实战

1 项目思路 针对不同的业务创建不同的子表 * 数据存储格式 orcfile /parquet * 数据压缩 * map output 数据压缩 snappy * 外部表 * 分区表 2 实战 创建表 drop TABLE if exists defalut.web_log_src; ...

2019-01-19 23:14:51

阅读数 11

评论数 0

Hive学习笔记(15)- Hive 优化

1 Hive 优化 1.1 hive.fetch.task.conversion <property> <name>hive.fetch.task.conversion&...

2019-01-19 10:02:16

阅读数 12

评论数 0

Java300学习笔记(7)—— 容器 ArrayList

1 Collection Collection 接口是 Collection 层次结构中的根接口,它定义了一些最基本的访问方法;

2019-01-18 23:01:17

阅读数 9

评论数 0

Hive学习笔记(15)- Hive Storage Format

1 文件格式 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL file_format: : SEQUENCEFILE | TEXTFILE -- (Default, depending on hi...

2019-01-18 22:17:36

阅读数 47

评论数 0

Hive学习笔记(14)- Hive数据压缩

1 Hive 数据压缩 1.1 编译 Hadoop 2.x 安装 sanppy 编译 hadoop 2.x 源码 mvn package -Pdist,native -DskipTests -Dtar -Drequire.snappy 2 常见的数据压缩技术 压缩格式 :bzip2,gzip...

2019-01-18 16:23:37

阅读数 24

评论数 0

Hive学习笔记(13)- HiveServer2,Beeline,JDBC

1 HiveServer2 https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Overview https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Clie...

2019-01-18 10:11:25

阅读数 15

评论数 0

Hive学习笔记(12)- Hive UDF

1 User Defined Functions https://cwiki.apache.org/confluence/display/Hive/HivePlugins UDF: 一进一出 UDAF(Aggregation) : 聚集函数,多进一出,类似于 count / max /min U...

2019-01-18 09:48:01

阅读数 22

评论数 0

Hive学习笔记(11)- Hive新功能 import,export; order by,sort by,distribute by, cluster by

1 hive 的 import,export https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ImportExport 1.1 export 这里的导出路径指的是 HDFS 里的路径 EXPORT TABLE ta...

2019-01-17 22:26:28

阅读数 19

评论数 0

Hive学习笔记(10)- Hive 常见的查询

1 Hive 常见的查询 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM tabl...

2019-01-17 20:08:42

阅读数 28

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭