大数据
文章平均质量分 82
MrBack
春鸿刷归翼,一寄杜蘅枝
展开
-
Ck(一)安装
一、本次下载安装ck版本19.16.2.21、ck下载地址:https://repo.yandex.ru/clickhouse/rpm/stable/x86_64/2、注意:此版本需要这三个包,其他版本可能还需要其他包。clickhouse-client-19.16.2.2-2.noarch.rpmclickhouse-common-static-19.16.2.2-2.x8...原创 2020-01-08 03:08:01 · 1900 阅读 · 0 评论 -
logzio/sawmill 改造增加switch功能
logzio/sawmill 作为Json Pipeline式处理工具,早期版本每个节点都是processor的,非常易用,高性能。近期增加了if statement功能。却没有多分支类似Switch Case功能。这里提供一个在if statment实现原理基础上的Switch Case的实现方式。首先logzio/sawmill 执行分成两大步骤,解析json串初始化Pipeline,...原创 2019-09-10 17:41:59 · 498 阅读 · 1 评论 -
玩转Kafka 一、Kafka入门
一、kafka核心功能高性能的消息发送与高性能消息消费!二、快速简单入门1、kafka下载,地址:https://www.apache.org/dyn/closer.cgi?path=/kafka/2.3.0/kafka_2.12-2.3.0.tgz2、jdk准备:链接:https://pan.baidu.com/s/1hNOmq995aRl9i22vQsqfsw 提...原创 2019-09-05 22:50:48 · 211 阅读 · 0 评论 -
MR 计算时使用组排序器后哪些数据在一次reduce计算中的思考
以前一直理解为 同一组key汇聚到reduce计算,今天写了组排序器和map阶段排序器 并且key为对象 时:突然如果组排序器代表的排序逻辑所定义的相同key在一次reduce计算中,还是即使使用组排序器,还是以key的hashCode为界定呢?首先梳理目前的已知MR流程:首先Hadoop在使用定义好的split大小,使用fileSystem的seek()及getBlocklocation...原创 2019-05-23 20:44:35 · 245 阅读 · 0 评论 -
hadoop踩坑之namenode进程无法启动且fsimage没有在预想目录下生成问题
这几天搭建Hadoop总遇到一个问题:在core-site.xml定义 hadoop.tmp.dir 或者直接在hdfs-site.xml定义namenode路径后 format操作时路径却在/dfs/nn下。而且启动hadoop namenode进程没有启动。原因:之前安装过CDH,虽然服务没有起用,但是CDH中的的配置还是影响了我Hadoop的相关配置。删除CDH后 解决问题。...原创 2019-05-17 11:03:40 · 386 阅读 · 0 评论 -
学习HBase(二)HBase优化
ps:又被小姐姐迷住了,以至于昨天没写。Shit !!!,后面一定要补上HBase第一节。还有前面的Linux及Nginx。坚持记录,努力变强!!!一、表设计1、预分区(pre-Creating Rehions)默认情况下,HBase表创建会自动创建一个Region分区,当导入数据时所有HBase客户端都会向这个Region写数据,直到这个Region足够大了才会进行切分。本方法是...原创 2018-09-06 21:45:10 · 190 阅读 · 0 评论 -
学习Hive(五)Hive 优化
Hive优化核心思想是把Hive Sql当做MapReduce去优化。1、select查询本表、where进队本表字段做过滤时不会转为MapReduce执行。原因:Hive抓取策略配置。Set hive.fetch.task.conversion=none/more;默认配置为more.所以对部分查询不会转为MapReduce执行。2、Hive sql转为MapReduce的过程:...原创 2018-09-04 23:29:34 · 267 阅读 · 0 评论 -
学习Hive(四)Hive视图、索引、运行方式、GUI接口、权限管理
一、Hive Lateral view:使用虚拟表的概念。但并非是真正的视图。1.1、与UDTF函数(split、explode)联合使用。1.2、首先通过UDTF函数将数据拆分成多行,再将多行结果组成一个虚拟表(支持别名)。1.3 主要场景:Hive在使用UDTF函数时,查询只能包含一个UDTF,不能包含其他字段,不能多个UDTF联合使用。错误例子:1.4 使用语句:se...原创 2018-09-04 21:20:40 · 2230 阅读 · 0 评论 -
学习Hive(三)Hive参数、动态分区、分桶
一、Hive变量1、以,hive --service metastore 开启服务 时:hive --hiveconfhive.cli.print.header=true;开启服务端。通过设置这个参数(临时参数,此方法当前进程有效,配置文件修改永久有效)开启。效果:2、也可以在正常进入客户端后,使用set设置:效果同上。3、客户端参数初始化:在家目录下 .hiver...原创 2018-09-04 12:39:31 · 920 阅读 · 0 评论 -
学习Hive(二)Hive分区、DML、HiveSerDe、Hive函数。
一、Hive的分区:我理解为类似mysql分表的概念。Hive表所在的文件夹下面将数据文件按规则分成多个。这样单涉及其中一个文件时会提高效率。建表的同时分区.注意分区也是一列。所以下面设置分区,属性处就不能有一样的(如下列中的age)。避免重复。下面为单分区建表:create table psn3(id int,name string,likes array<string...原创 2018-09-04 00:16:54 · 268 阅读 · 0 评论 -
学习Hive(一)初识Hive、基于Hadoop搭建Hive、HSql基础
1、hive就是对hdfs的数据进行mapreduce操作。hive就是一个数据仓库,运行时元数据信息存储在关系型数据库。2、 1、hive上传并解压。将mysql-connector放入hive的lib下,环境变量添加上。 记得装个mysql(yum install mysql,开启mysqld服务,授权。) 2、将hive-xxx(忘记了好像是tem什...原创 2018-09-03 22:18:39 · 1453 阅读 · 0 评论 -
学习Hadoop(六)Hadoop小试。手写案例
一、题目1、主方法,配置作业:public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException { //自定义配置信息,不改动则按照默认配置 Configuration conf = new Co...原创 2018-09-03 02:50:17 · 275 阅读 · 0 评论 -
学习Hadoop(五)源码阅读,部分底层原理
1、Job,创建进程、完成作业细则、提交作业。向上追踪源码到MRJobConfig类,发现这里定义了大量的默认配置。例:maptasjk执行时可申请的最大内存,默认为1G。2、此为提交作业。既作业提交给集群,集群验证分析后执行。那么,提交后,map阶段之前处于进行分片阶段,之所以默认分片后片的大小默认为块的大小因为如此。minSize默认为1B maxSize默认为long的最大值。blo...原创 2018-09-03 01:08:31 · 776 阅读 · 0 评论 -
学习Hadoop(四)MapReduce架构模型,搭建MR,简单MR计算例子
例子:单词统计例子注意map处理为key-value,value不能为基本数据类型,String-->Text int-->IntWritableMR1.0架构(配合HDFS1.0)Client分配任务给Job Tracker, Job Tracker调度任务给DataNode,在调度任务之前DataNode上的TaskTracker进程会监控该DataNode...原创 2018-09-02 05:13:13 · 522 阅读 · 0 评论 -
学习Hadoop(三)Eclipse中Java代码操作HDFS及初识MapReduce
一、Eclipse中准备开发环境。准备:解压hadoop、hadoop-src.建立hadoop-lib目录放入所有jar包。bin下替换一下。还有hadoop.dll放入system32下。 这个放入eclipse下plugins下。1、配置环境变量:HADOOP_HOME,加到PATH中(与jdk类似,不再描诉),配置HADOOP_USER_ROOT(值为root)...原创 2018-08-31 03:58:45 · 484 阅读 · 0 评论 -
学习Hadoop(二)全分布式Hadoop1.X搭建及2.X介绍及搭建
一、Hadoop1.X全分布式搭建首先还是防火墙、域名映射、JDK检查好。1、时间同步:date -s "时间"2、节点间免秘钥。scp id_dsa.pub node04:`pwd`/node01.pub3、core-site.xml修改下目录(自定义即可与之前的分开,避免数据冲突)4、hdfs-site.xml 修改。修改副本数量和SecondaryNameNode地址:...原创 2018-08-30 04:09:26 · 228 阅读 · 0 评论 -
学习Hadoop(一)了解Haddop及搭建伪分布式Hadoop1.0
ps.惰性太大,四天没写,一定会补齐Nginx及Keepalived部分,哦还有之前的Linux的部分。一定要坚持下来!单提Hadoop一般分为四部分(其他生态系统中的后续单独再写):1、分布式存储系统HDFS:分布式存储系统、提供了高可靠性、高扩展性、高吞吐率的数据存储服务。2、分布式计算框架MR(MapReduce):分布式计算框架(计算向数据移动)、易于编程 高容错 高扩展3...原创 2018-08-30 02:06:10 · 272 阅读 · 0 评论