Demo_chen
码龄6年
关注
提问 私信
  • 博客:6,172
    6,172
    总访问量
  • 14
    原创
  • 1,726,292
    排名
  • 8
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2019-04-26
博客简介:

Codedemo的博客

查看详细资料
个人成就
  • 获得2次点赞
  • 内容获得0次评论
  • 获得14次收藏
创作历程
  • 14篇
    2019年
成就勋章
TA的专栏
  • Hive
    4篇
  • Hadoop
    1篇
  • Spark
    5篇
  • Zookeeper
    2篇
  • Kafka
    2篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Kafka 的基础架构 工作流程及文件存储机制

1. Kafka 的基础架构1)Producer :消息生产者,就是向kafka broker发消息的客户端;2)Consumer :消息消费者,向kafka broker取消息的客户端;3)Consumer Group (CG):消费者组,由多个consumer组成。消费者组内每个消费者负责消费不同分区的数据,一个分区只能由一个消费者消费;消费者组之间互不影响。所有的消费者都...
原创
发布博客 2019.05.23 ·
296 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据技术 Kafka 集群安装部署 快速入门

Kafka快速入门1 集群规划hadoop102 hadoop103 hadoop104zk zk zkkafka kafka kaf...
原创
发布博客 2019.05.23 ·
231 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Zookeeper 实战 分布式安装部署 (开发重点)

(一)分布式安装部署1.集群规划在hadoop102、hadoop103和hadoop104三个节点上部署Zookeeper。2.解压安装(1)解压Zookeeper安装包到/opt/module/目录下[test@hadoop102 software]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/(2)同步/opt/m...
原创
发布博客 2019.05.23 ·
201 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据技术 ZooKeeper 内部原理

1 选举机制 1)半数机制:集群中半数以上机器存活,集群可用。所以Zookeeper适合安装奇数台服务器。2)Zookeeper虽然在配置文件中并没有指定Master和Slave。但是,Zookeeper工作时,是有一个节点为Leader,其他则为Follower,Leader是通过内部的选举机制临时产生的。3)以一个简单的例子来说明整个选举的过程。假设有五...
原创
发布博客 2019.05.23 ·
180 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据技术 HiveSQL 中的开窗函数 (窗口函数)

HiveSQL 窗口函数(开窗函数)1.相关函数说明OVER():指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化。CURRENT ROW:当前行n PRECEDING:往前n行数据n FOLLOWING:往后n行数据UNBOUNDED:起点,UNBOUNDED PRECEDING 表示从前面的起点, UNBOUNDED FOLLOWING表示到...
原创
发布博客 2019.05.22 ·
1282 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

大数据技术 Hive 的 安装与配置

1.Hive安装及配置(1)把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下(2)解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面[test@hadoop102 software]$ tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/mod...
原创
发布博客 2019.05.20 ·
431 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据技术 Hive 的 介绍

什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上Hive架...
原创
发布博客 2019.05.20 ·
162 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark cluster 工作机制

Spark-cluster 工作任务执行流程模型在YARN Cluster模式下,任务提交后会和ResourceManager通讯申请启动ApplicationMaster,随后ResourceManager分配container,在合适的NodeManager上启动ApplicationMaster,此时的ApplicationMaster就是Drive...
原创
发布博客 2019.05.17 ·
231 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark 性能调优-----常规性能调优

常规性能调优 1常规性能调优一:最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。资源的分配在使用脚本提交Spark任务时进行指定,标准的Spark任务提交脚本如代码清单2-1所示:代码清单2-1 标准Spark提交脚本/u...
原创
发布博客 2019.05.17 ·
421 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark 从MySQL中 读取 和插入 数据

在MySQL中 创建 rdd 数据库 创建 user(id, name, age)表 添加测试数据 (1,''zhangsan",20),(2,''lisi",30),(3,''zhangsan",40)package com.bigdata.spark.Connectimport java.sql.{Connection, DriverMana...
原创
发布博客 2019.05.16 ·
697 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

SparkSql 中用户自定义聚合函数---强类型

强类型的Dataset和弱类型的DataFrame都提供了相关的聚合函数, 如count(),countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。 强类型用户自定义聚合函数:通过继承Aggregator来实现强类型自定义聚合函数。强类型 Demo :自定义求用户平均年龄的聚合函数...
原创
发布博客 2019.05.13 ·
488 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SparkSql 中用户自定义聚合函数---弱类型

强类型的Dataset和弱类型的DataFrame都提供了相关的聚合函数, 如count(),countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。 弱类型用户自定义聚合函数:通过继承UserDefinedAggregateFunction来实现用户自定义聚合函数。 弱类型 Demo 自定义求用...
原创
发布博客 2019.05.13 ·
292 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

从零开始搭 Hadoop 集群

内存4G,硬盘50G1. 安装好linux /boot 200M /swap 2g / 剩余 2. *安装VMTools3. 关闭防火墙 sudo service iptables stop sudo chkconfig iptables off4. 设置静态IP,改主机名 编辑vim /etc/sysconfig/networ...
原创
发布博客 2019.05.10 ·
378 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据仓库构建拉链表之 Hive 操作

1. 什么是拉链表 拉链表,记录每条信息的生命周期,一旦一条记录的生命周期结束,就重新开始一条新的记录,并把当前日期放入生效开始日期。 如果当前信息至今有效,在生效结束日期中填入一个极大值(如9999-99-99 ) 2.为什么要做拉链表 拉链表适合于:数据会发生变化,但是大部分是不变的。 比如:订...
原创
发布博客 2019.05.09 ·
882 阅读 ·
2 点赞 ·
0 评论 ·
5 收藏