大数据框架
HeCCXX
这个作者很懒,什么都没留下…
展开
-
ClickHouse 使用之常用数据类型、表引擎、语法
四、数据类型4.1 整型固定长度的整型,包括有符号整型或无符号整型。整型范围(-2n-1~2n-1-1):Int8 - [-128 : 127]Int16 - [-32768 : 32767]Int32 - [-2147483648 : 2147483647]Int64 - [-9223372036854775808 : 9223372036854775807]无符号整型范围(0~2n-1):UInt8 - [0 : 255]UInt16 - [0 : 65535]UInt32原创 2020-11-10 15:34:58 · 1300 阅读 · 3 评论 -
ClickHouse 安装及使用
ClickHouse 安装及使用ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。一、安装前准备1.1 Centos取消打开文件数限制在/etc/security/limits.conf、/etc/security/limits.d/90-nproc.conf这2个文件的末尾加入一下内容:[root@hadoop1 software]# vim /etc/security/limi原创 2020-11-06 17:58:12 · 688 阅读 · 1 评论 -
Kylin安装及员工表和部门表多维度分析实战(详细步骤)
Kylin快速安装1、首先去官网下载对应安装包,http://kylin.apache.org/cn/download/。2、下载完成后,将apache-kylin-3.0.1-bin-hbase1x.tar.gz上传到集群,并解压。注意:需要在环境变量中添加HADOOP_HOME,HIVE_HOME,HBASE_HOME,可以到/etc/profile文件中修改,最后需要source 使添...原创 2020-03-20 14:34:00 · 1068 阅读 · 0 评论 -
Flink实时项目例程
Flink实时项目例程一、项目模块完整例程github地址:https://github.com/HeCCXX/UserBehaviorAnalysis.gitHotItemAnalysis 模块 : 实时热门商品统计,输出Top N 的点击量商品,利用滑动窗口,eventTime(包括本地文件数据源和kafka数据源)NetWorkTrafficAnalysis 模块,实时流量统计,和...原创 2019-11-29 11:00:05 · 1662 阅读 · 0 评论 -
Spark Streaming+kafka+spring boot+elasticsearch实时项目(canal)
在本次实验中,利用spark、elasticsearch、kafka等相关框架搭建一个实时计算系统。具体流程如下图所示,用户访问对应服务,由nginx服务器进行负载均衡访问具体的主机上的服务,访问过程中将产生用户具体的操作日志,该操作日志将由具体服务发送保存到Kafka集群(或者可以写到具体文件,可以通过Flume对日志文件进行采集,发送到Kafka集群)。数据缓存到kafka集群后,利用...原创 2019-11-25 18:17:53 · 1980 阅读 · 0 评论 -
Flink es-sink解决java.lang.NoSuchFieldError: FAIL_ON_SYMBOL_HASH_OVERFLOW
在写Flink实例时,遇到将case class 样例类转换为jsonObject后,在添加到es sink source中时,报错java.lang.NoSuchFieldError: FAIL_ON_SYMBOL_HASH_OVERFLOW。问题总结出现以下问题的原因是jar包的依赖版本问题。解决该问题需要引入高版本的包,同时解决包冲突问题。java.lang.NoSuchField...原创 2019-11-21 18:48:54 · 1486 阅读 · 1 评论 -
Flink安装及WordCount实例yarn-cluster提交
flinkflink(基于数据流上的有状态计算)flink的特点:事件驱动型事件驱动型应用是一类具有状态的应用,它从一个或多个事件六提取数据,并根据到来的事件触发计算、状态更新或其他外部动作。(SparkStreaming是微批次,将批次更加微小化)实时流处理批处理的特点是有界、持久、大量。非常适合需要访问全套记录才能完成的计算工作,一般用于离线计算。流处理的特点是无界、实时...原创 2019-11-19 19:22:30 · 1721 阅读 · 0 评论 -
解决windows上The root scratch dir: /tmp/hive on HDFS should be writable.Current permissions are: ------
解决Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState': java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: ---------首先...原创 2019-11-02 17:41:57 · 3551 阅读 · 2 评论 -
Scala快速入门(零基础到入门)
基础语法区分大小写 - Scala是区分大小写的,比如标识符Hello和hello在Scala中表示不同的含义(对象)。类名称 - 对于所有类名,第一个字母应为大写。如果使用多个单词来形成类的名称,则每个内部单词的第一个字母应该是大写。示例 - class MyFirstScalaClass,class Employee*类等。方法名称 - 所有方法名称应以小写字母开头。如果使用多个单词...原创 2019-09-26 10:46:11 · 834 阅读 · 0 评论 -
flume消费kafka数据,以时间戳的形式创建文件,保存到hdfs
组件:flume-1.8、hadoop-2.6.0、kafka-2.10-0.10.2.1目的:flume消费kafka数据,以时间戳的形式创建文件,保存到hdfsSINKS.HDFS配置说明: channel type hdfs path 写入hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/webdata/可以使用...原创 2018-12-28 15:07:13 · 2412 阅读 · 0 评论 -
Kafka Connect 出现ERROR Failed to flush WorkerSourceTask{id=local-file-source-0}, timed out while wait
在官网第七步Step 7: 使用 Kafka Connect 来 导入/导出 数据从控制台写入和写回数据是一个方便的开始,但你可能想要从其他来源导入或导出数据到其他系统。对于大多数系统,可以使用kafka Connect,而不需要编写自定义集成代码。Kafka Connect是导入和导出数据的一个工具。它是一个可扩展的工具,运行连接器,实现与自定义的逻辑的外部系统交互。在这个快速入门里...原创 2018-11-07 15:05:39 · 2780 阅读 · 1 评论 -
flume、kafka、avro组成的消息系统
利用apache flume和Apache kafka(依赖zookeeper)完成一个消息系统,具体消息传递:kafka-->flume A-->flume B-->kafka。将数据通过flume进程A从kafka集群中读取,通过avro sink将数据发送到flume进程B ,最后将数据kafkasink 到kafka集群中。测试过程两端kafka可选不同topic,例...原创 2018-11-06 13:41:27 · 1121 阅读 · 0 评论