大数据
文章平均质量分 54
dominic_tiger
从业IT六载有余,尝彷徨之、挣扎之,欲逃离之。近而立之年,见闻愈广、结识愈多、思索愈甚,方觉今是昨非。人生苦短,唯学识日益精进方不负此生。
鄧进之
丁酉年贰月十七日
展开
-
什么是Hadoop?
定义:一款以HDFS(Hadoop Distributed File System)作为其分布式存储、以MapReduce编程模型作为其处理核心的应对海量数据的开源软件框架。它运行在由普通商用机构建而成的硬件集群之上。简单流程:Hadoop将数据存储文件分割成大的数据块,并将其分发至集群环境中所有的节点。然后再将打包好的应用处理代码分发到集群节点上,对数据进行并行处理。Hadoop基础模块 -原创 2017-03-21 07:30:20 · 399 阅读 · 0 评论 -
SQLContext自定义函数注册
本文简单介绍两种往SQLContext中注册自定义函数方法背景:员工表emp,只有name和age两个字段。现在假设员工退休的法定年龄均为60岁,需要计算每个员工剩余工作年限。 val df = sc.parallelize(Seq(("张三", 25), ("李四", 30),("赵六", 27))).toDF("name", "age") df.registerTempTable原创 2017-03-31 07:26:16 · 630 阅读 · 0 评论 -
HBase数据迁移至Hive
HBase数据迁移至Hive背景:需要将HBase中表xyz(列簇cf1,列val)迁移至Hive1. 建立Hive和HBase的映射关系1.1 运行hive shell进入hive命令行模式,运行如下脚本CREATE EXTERNAL TABLE hbase_table_1(key int, value string) STORED BY 'org.apache.hadoop.hive.hbas原创 2017-04-19 10:24:33 · 7472 阅读 · 1 评论 -
Hadoop集群间HBase数据迁移
背景:HBase Cluster1 -> HBase Cluster2原创 2017-05-04 13:58:55 · 1427 阅读 · 0 评论 -
通过公网IP访问云上的Hadoop集群
背景:从公司内部网络中的Hadoop集群访问部署在亚马逊云的Hadoop集群1. IP、域名设置1.1 给云上每个实例设置一个内网IP(如上图10.0.0.5)1.2 给云上每个实例绑定一个Elastic IP(弹性IP,如上图X.X.X.1),并且与内网IP一一对应1.3 给云上每个实例配置一个域名(如上图A001),并且与内网IP一一对应1.4 给公司内部网络每台机器(实例)配置一个域名翻译 2017-05-12 21:32:20 · 6447 阅读 · 0 评论 -
如何在kylo中添加数据源
背景:如何在数据湖平台kylo中,添加数据源(如下图,支持从phoenix数据源获取数据) 步骤1、配置Controller Service,如下图 -点击配置按钮进行配置原创 2017-06-02 09:44:35 · 3741 阅读 · 1 评论