大数据
包括flume、hbase、hive、cdh等文章
T_白日梦想家
这个作者很懒,什么都没留下…
展开
-
Hive UDAF
UDAF是用户自定义聚合函数。Hive支持其用户自行开发聚合函数完成业务逻辑。从实现上来看,Hive的UDAF分为两种:Simple。即继承org.apache.hadoop.hive.ql.exec.UDAF类,并在派生类中以静态内部类的方式实现org.apache.hadoop.hive.ql.exec.UDAFEvaluator接口。这种方式简单直接,但是在使用过程中需要依赖JA...原创 2020-01-27 21:21:17 · 661 阅读 · 0 评论 -
Hadoop HDFS操作命令
Hadoop HDFS操作命令查看Hadoop HDFS支持的所有命令hadoop fs列出目录及文件信息hadoop fs -ls循环列出目录、子目录及文件信息hadoop fs -lsr将本地文件系统的test.txt复制到HDFS文件系统的/user/sunlightcs目录下hadoop fs -put test.txt /user/sunlightcs将HDFS...原创 2020-01-27 20:39:58 · 823 阅读 · 0 评论 -
AeroSpike配置及Java Client使用
一、AeroSpike配置1、配置文件位置:/etc/aerospike/aerospike.conf2、注意事项: <1> bin key名称限制字节数,不超过14个字节 <2>集群内的每个节点有一个配置文件aerospike.conf,每个节点配置文件中的namespace配置参数必须一致 <3>复制因子(replication factor)是一个配置参数,不能超过集群原创 2017-07-07 12:02:27 · 3039 阅读 · 0 评论 -
AeroSpike安装及启动
下载AeroSpike安装文件:aerospike-amc-community-3.6.13-el6.x86_64.rpmaerospike-server-community-3.11.1.1-el7.tgz一、安装Servertar -xvf aerospike-server-community-3.11.1.1-el7.tgzcd aerospike-server-community-3.11原创 2017-07-07 11:56:03 · 4488 阅读 · 0 评论 -
CDH安装过程
一、准备工作1、安装Java JDK(所有节点)从官网上下载rpm包,可从以下网址下载Java JDKhttp://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html我使用的是 jdk-8u121-linux-x64.rpm,执行命令:rpm -ivh jdk-8u121-linux-x64.rpm原创 2017-10-17 12:03:10 · 2243 阅读 · 0 评论 -
Flume使用简介
flume是分布式的日志收集系统,把收集来的数据传送到目的地去。flume里面有个核心概念,叫做agent。agent是一个java进程,运行在日志收集节点。agent里面包含3个核心组件:source、channel、sink。3.1 source组件是专用于收集日志的,可以处理各种类型各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、ne转载 2017-07-07 11:50:41 · 841 阅读 · 0 评论 -
Flume单Channel多Sink配置
多sink可以直接按常规配置,这样的话每个sink会启动一个sinkrunner,相当于每个线程一个sink,互不干扰,负载均衡是通过channel实现的,效率会提高为n倍,如果在此基础上加入sinkgroup,则sinkgroup会启动一个sinkrunner,就是单线程,sinkgroup从channel中读取数据,然后分发到下面挂载的sink中,效率和单sink一样,没有提高,但是可以实现两个原创 2017-07-07 11:32:08 · 7107 阅读 · 0 评论 -
Flume 监控目录文件 spooldir
Flume 监控目录文件 spooldirFlume应用场景中监控某个目录下的文件进行读取使用的很多,Flume通过source类型为spooldir来进行监控目录下文件,当新增文件时,Flume可将文件进行读取,开发者只需要编写对应的文件序列化器即可将读取的文件转存至HBase、HDFS、或者其他希望的数据格式。原创 2017-07-07 11:10:00 · 3508 阅读 · 0 评论 -
HBase - 建表语句解析
像所有其他数据库一样,HBase也有表的概念,有表的地方就有建表语句,而且建表语句还很大程度上决定了这张表的存储形式、读写性能。比如我们熟悉的MySQL,建表语句中数据类型决定了数据的存储形式,主键、索引则很大程度上影响着数据的读写性能。虽然HBase没有主键、索引这些概念,但在HBase的世界里,有些东西和它们一样重要!建表语句:create 'NewsClickFeedback',{NAME=>转载 2017-07-07 12:07:18 · 1358 阅读 · 0 评论 -
Spark DataFrame 操作命令
一、Hive下生成DataFrame对象SparkConf sparkConf = new SparkConf().setAppName("名称").setMaster("执行方式");JavaSparkContext jsc = new JavaSparkContext(sparkConf);HiveContext hc = new HiveContext(jsc);#通过执行SQL生成Data原创 2017-10-23 15:58:43 · 6392 阅读 · 0 评论 -
Hive时间处理函数
日期函数UNIX时间戳转日期函数:from_unixtimefrom_unixtime(bigint unixtime[, string format])返回值:string说明:转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式举例:Hive> select from_unixtime(1501819932, 'yyyyMMdd') from原创 2017-08-04 12:02:49 · 1987 阅读 · 0 评论 -
Hive分区表操作
1、必须在表定义时创建 partition单分区建表语句:create table table1 (id int, content string) partitioned by (day string);单分区表,按天分区,在表结构中存在id、content、day三列。双分区建表语句:create table table2 (id int, content string) partitione原创 2017-08-02 15:57:52 · 1412 阅读 · 0 评论 -
Hive常用语句记录
1、修改表名、表移库ALTER TABLE {database.old_table} RENAME TO {database.new_table}database.old_table:老表名database.new_table:新表名2、Hive表及分区添加字段#表添加字段alter table tablename add columns (field type);#分区添加字段alte原创 2017-08-02 15:53:17 · 617 阅读 · 0 评论