![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
goldlone
这个作者很懒,什么都没留下…
展开
-
hadoop完全分布式搭建(CentOS 6.5)
hadoop完全分布式搭建(CentOS 6.5)1. 关闭防火墙2. 修改hostname3. 修改网络映射hosts4. 配置免密登录5. 准备软件环境6. 配置环境变量7. 修改hadoop配置文件7.1 hadoop-env.sh 和 yarn-env.sh7.2 core-site.xml7.3 hdfs-site.xml7.4 mapred-site.xml...原创 2018-08-29 15:35:49 · 550 阅读 · 0 评论 -
Zeppelin连接Hive
1. 修改JDBC解释器配置2. 添加依赖原创 2018-12-17 17:02:00 · 2251 阅读 · 0 评论 -
Scala自定义数据库连接池及工具类
DBUtil.scalaimport java.sql.{Connection, DriverManager, PreparedStatement, ResultSet, Statement}import java.util.concurrent.{BlockingQueue, LinkedBlockingQueue}/** * JDBC 工具类 * @author Created...原创 2018-12-06 17:22:22 · 1962 阅读 · 2 评论 -
Spark算子总结
Spark 算子RDD支持两种类型的算子, transformation (从现有的数据集创建新的数据集)和 action (从数据集上运行计算后将值返回到驱动程序)transformation算子并不会立即进行计算,只记录依赖于哪个数据集,仅当需要将结果返回驱动程序时才进行计算转换(即遇到action算子)。这种设计使Spark能够更有效地运行 。默认情况下,每次对其执行操作时,都可以重新...原创 2018-11-08 21:32:28 · 1228 阅读 · 1 评论 -
Standalone下Spark配置HA(High Availablity)
Standalone下Spark配置HA(High Availablity)http://spark.apache.org/docs/1.6.3/spark-standalone.html#high-availability在默认情况下,Standalone的集群调度对Worker具有容错性,因为当Worker节点崩溃后可以将Application移动到其他可用节点。但是调度程序依靠Mas...原创 2018-11-01 14:51:35 · 211 阅读 · 0 评论 -
安装HWI(Hive Web Interface)
安装HWI(Hive Web Interface)1. 下载源码包https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-1.2.2/apache-hive-1.2.2-src.tar.gz2. 解压源码包tar -zxvf apache-hive-1.2.2-src.tar.gz3. 将源码包中的HWI打包成Warcd apach...原创 2018-10-31 23:22:46 · 315 阅读 · 0 评论 -
HBase学习笔记
文章目录HBase1. 简介2. 工作机制3. 环境搭建4. 使用4.1 Shell操作4.2 Java API 操作HBase1. 简介HBase是Hadoop Database,是一个分布式的、可扩展的大数据存储仓库。当需要随机访问数据、实时的读写数据时使用。HBase是No-SQL数据库。2. 工作机制读写流程HMaster, HRegionServer两个特殊的表...原创 2018-10-08 20:47:58 · 171 阅读 · 0 评论 -
Flume学习笔记
文章目录Flume1. 简介2. 机制3. 环境搭建4. 使用4.1 支持的Source、Sink、Channel4.2 约定别名4.3 范例FlumeFlume 1.8 用户指南1. 简介Flume是一个用于有效地从许多不同的源收集,聚合和移动大量日志数据到统一的数据存储中的,分布式、可靠且可用的系统,。Flume的使用不仅限于日志数据聚合。由于数据源是可定制的,因此Flume...原创 2018-09-27 11:36:30 · 213 阅读 · 0 评论 -
ZooKeeper 学习笔记
文章目录ZooKeeper1. 简介2. 应用场景2.1 数据发布与订阅(配置中心)2.2 负载均衡2.3 命名服务(Naming Service)2.4 分布式通知/协调2.5 集群管理与Master选举2.6 分布式锁2.7 分布式队列3. 环境搭建(zookeeper-3.4.10)3.1 完全分布式3.2 伪分布式4. 选举机制符1:学习资料附2:遇到的问题Cannot open chan...原创 2018-09-18 09:48:19 · 109 阅读 · 0 评论 -
Sqoop 学习笔记
Sqoop 学习笔记1. 简介2. 安装3. 数据导入(import)3.1 指令参数解析3.2 从MySQL导入至HDFS3.3 从MySQL导入至Hive4. 数据导出(export)4.1 指令参数解析4.2 从HDFS导出至MySQL5. Job5.1 创建Job5.2 查看所有Job5.3 查看一个Job详情5.4 执行Job5.5 删除Job...原创 2018-09-12 20:45:14 · 224 阅读 · 0 评论 -
Hadoop 自定义输入输出
Hadoop 自定义输入输出一、输入端1. 数据读取抽象类2. 自定义MySQL输入类二、输出端1. 数据输出抽象类2. 自定义MySQL输出类三、测试例1. 目的2. 数据库表结构3. 编写测试例3.1 Map 输入Value类3.2 Map 输出Key3.3 Map 输出Value3.4 Map 任务3.5 Reduce 输出Value3.6 Red...原创 2018-09-05 22:10:52 · 529 阅读 · 0 评论 -
Hive 学习笔记
Hive 学习笔记1. 环境搭建1.1 Hive 1.X2. 使用2.1 数据库2.2 表2.3 分区2.4 分桶2.5 数据操纵2.5.1 导入数据2.5.2 导出数据2.5.3 查询2.5.4 删除2.5.5 自定义函数2.6 通过脚本运行HQLHive 学习笔记1. 环境搭建1.1 Hive 1.X要求:搭建H...原创 2018-09-08 17:46:12 · 444 阅读 · 0 评论 -
Azkaba 获取昨日日期
参考: azkaban作业参数使用介绍在作业调度里,经常需要用到时间参数,比如第二天凌晨去跑昨天的数据,这时就会用到昨日的日期。例子如下:year=${azkaban.flow.start.year}month=${azkaban.flow.start.month}day=${azkaban.flow.start.day}# 结果: yyyy-MM-dd格式,可以按照自己的需求拼...原创 2018-12-11 17:45:06 · 2402 阅读 · 2 评论