![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
罗少说
这个作者很懒,什么都没留下…
展开
-
StreamPark
以开发者视角了解StreamPark原创 2023-08-23 23:38:19 · 846 阅读 · 0 评论 -
kafka实战使用文档(一)
kafka实战使用文档原创 2023-06-28 07:25:40 · 217 阅读 · 0 评论 -
flume拦截器介绍
flume拦截器原创 2023-04-21 08:37:47 · 1066 阅读 · 0 评论 -
clickhouse集群搭建
clickhouse集群搭建原创 2022-12-12 22:41:26 · 1439 阅读 · 0 评论 -
服务器内存占用太高如何解决及知识点介绍
服务器内存占用太高如何解决及知识点介绍原创 2022-12-07 22:14:34 · 3636 阅读 · 0 评论 -
hadoop之hdfs生产数据块损坏修复方法
hadoop之hdfs生产数据块损坏修复方法原创 2022-11-28 10:59:35 · 3485 阅读 · 4 评论 -
hadoop集群迁移
hadoop集群迁移原创 2022-11-28 10:56:16 · 1356 阅读 · 0 评论 -
深入理解Hadoop YARN中的Container概念
深入理解Hadoop YARN中的Container概念原创 2022-11-28 10:51:23 · 1045 阅读 · 0 评论 -
hive库表常用命令及常用函数
hive库表常用命令及常用函数原创 2022-11-21 14:56:33 · 621 阅读 · 0 评论 -
Arctic——流式湖仓系统
Arctic 是由网易开源的流式湖仓系统,Arctic 在 Iceberg 和 Hive 之上添加了更多实时场景的能力,并且面向 DataOps 提供流批统一,开箱即用的元数据服务,让数据湖更加好用和实用。原创 2022-11-18 13:06:23 · 1301 阅读 · 0 评论 -
DataSophon——国产开源一站式运维平台
DataSophon——国产开源一站式运维平台原创 2022-11-13 18:57:02 · 10729 阅读 · 4 评论 -
【大数据采集工具-gobblin】
一种分布式数据集成框架,可简化大数据集成的常见方面,例如流式数据和批处理数据生态系统的数据摄取、复制、组织和生命周期管理。Gobblin是LinkedIn公司开发的用于在Hadoop环境里统一数据抽取的框架。目前Gobblin可以建立多种pipelines,比如数据质量检查器、源数据管理、开发和其他操作。Gobblin支持多种类型的数据源。原创 2022-09-19 14:17:56 · 1285 阅读 · 0 评论 -
编译datax
编译datax编译datax0、前置环境1、下载源码2、第一次编译(失败)3、第二次编译(成功)4、编译成功之后5、测试0、前置环境 maven 需要在windows下配置环境变量 idea java 1、下载源码git clone https://github.com/alibaba/DataX.git2、第一次编译(失败)第一次编译时,遇到这个问题解决办法:2.1 下载源码git clone https..原创 2021-06-28 22:55:02 · 1249 阅读 · 4 评论 -
mysql数据批量导入clickhouse
clickhouse准备本地表create table student on cluster luopc_mpp_cluster ( id UInt8, name String, age UInt8, create_time Datetime ) engine =ReplicatedMergeTree('/clickhouse/tables/{shard}/student','{replica}') primary key (id) orde...原创 2021-06-28 11:52:00 · 1594 阅读 · 4 评论 -
apache软件下载地址
https://dist.apache.org/repos/dist/release/原创 2021-06-03 17:22:07 · 462 阅读 · 0 评论 -
ambari安装包下载链接
Mysql 5.7.32链接:https://pan.baidu.com/s/1prpOgQwZ9LKEb8jk3LSovw提取码:az8f复制这段内容后打开百度网盘手机App,操作更方便哦--来自百度网盘超级会员V1的分享ambari-2.6.2.2 HDP-2.6.5链接:https://pan.baidu.com/s/1eOwpjPrLgxg_PlqzjfROkQ提取码:5isz复制这段内容后打开百度网盘手机App,操作更方便哦--来自百度网盘超级会员V1的分享...原创 2021-05-05 21:45:45 · 1729 阅读 · 7 评论 -
ambari集群安装hdp
接上篇《ambari集群搭建详细步骤》说明:ambari2.6.5和ambari2.7.5的页面不一样集成安装向导Get Started 开始 Select Version 选择版本 Install Options 安装选项 Confirm Hosts 确认节点 Choose Services 选择服务 Assign Masters 分配主节点 Assign Slaves and Clients 分配从节点和客户端 Review 再次确认 Install,Start and.原创 2021-05-02 15:20:28 · 1961 阅读 · 1 评论 -
全网最详细的ambari集群搭建详细步骤
1、服务器环境说明集群三台节点 可以互相访问 使用root用户 配置免密 centos7 ambari-2.6.2.2 hdp-2.6.5我的环境如下:192.168.8.105 my-hdp1192.168.8.106 my-hdp2192.168.8.107 my-hdp32、防火墙设置#查看防火墙状态systemctl status firewalld#关闭防火墙systemctl stop firewalld#设置防火墙服务开机不自启system.原创 2021-05-01 11:35:05 · 7804 阅读 · 22 评论 -
大数据之kylin——与zookeeper通信问题
解决办法:#配置zookeeperkylin.env.zookeeper-connect-string=master:2181错误日志2021-03-03 00:12:03,724 INFO [main] zookeeper.ZooKeeper:438 : Initiating client connection, connectString=master:2181 sessionTimeout=90000 watcher=org.apache.hadoop.hbase.zookeep原创 2021-03-03 17:47:38 · 790 阅读 · 2 评论 -
大数据之hive——元数据初始化
元数据初始化命令:schematool -dbType mysql -initSchema控制台日志SLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/home/sweet/software/apache-hive-2.3.6-bin/lib/log4j-slf4j-impl-2.6.2.jar!/org/slf4j/impl/StaticLoggerBinder.cla原创 2021-03-03 17:44:39 · 8127 阅读 · 14 评论 -
hive添加字段
hive (test)> alter table lx add columns(id string);OKTime taken: 0.25 secondshive (test)> alter table lx add columns(name string,xb string);OKTime taken: 0.197 seconds原创 2021-02-24 17:06:27 · 1048 阅读 · 0 评论 -
hive之udf函数开发
接上一篇hive开发之maven手动安装jar包,点击可跳转添加pom依赖,说明version要与环境一致,不然可能会因为版本不一致问题报错 <dependencies> <!--添加Hadoop依赖--> <dependency> <groupId>org.apache.hadoop</groupId > <artifactId>hadoo原创 2021-02-22 11:44:38 · 895 阅读 · 0 评论 -
hive开发之maven手动安装jar包
开发hive udf函数时,添加hive-exec依赖,包不能引入,由于将maven镜像改为阿里镜像,hive-exec-1.2.1.jar找不到,导致pom文件报错于是去maven中央仓库检索,搜索结果如下下载jar包如何安装jar包呢?1、如果配置了maven环境变量,可以在dos窗口中任意路径执行,如果没有,则需要进入maven文件下bin目录下进入dos窗口,我这里就是这样进入的2、参数说明-DgroupId:所属组-DartifactId:名称-..原创 2021-02-22 11:18:24 · 1152 阅读 · 0 评论 -
使用idea数据开发中时区问题
本次问题和解决办法由@蕉下客提供问题背景:使用idea进行开发,mysql作为数据源,读取到的数据时间信息与真实时间相差八小时分析:问题原因是时区没有设置东八区或者上海时间解决办法:在idea中设置时区开发过程:1、在presto中查询mysql数据2、在zeppline查询mysql3、在idea中查询mysql4、在spark-shell中查询mysql总结:使用idea等开发工具进行数据开发时,可能会因...原创 2021-02-22 09:46:09 · 3830 阅读 · 0 评论 -
hadoop之yarn
yarn介绍yarn是Apache Hadoop YARN,hadoop中的组件,是英文简称,全程是Yet Another Resource Negotiator,另一种资源协调者,是一种新的Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。hadoop进行资源管理和任务调度的是resourcemanager。后面会更新google三篇论文和yarn的演变过程yarn的web界面..原创 2021-01-26 22:37:00 · 4620 阅读 · 1 评论 -
hive中浮点型数据计算精度丢失
举例:无限小数保留几位说明:hive中round函数用于保留小数位,最后一位四舍五入结果:double类型计算结果精度丢失原因:round函数返回值是保留几位小数的double类型,虽然是保留几位,但浮点型的长度还在,所以二次计算时就会发生精度丢失解决办法:将round函数返回值强转成decimal扩展:hive函数值返回值是浮点型的,发生精度丢失时,可以采取类似办法测试过程如下:...原创 2021-01-25 10:28:13 · 3967 阅读 · 0 评论 -
hive中如何实现13位时间戳转毫秒时间类型
正确执行sql如下:select concat(t,".",substring(1611231717343,11,13))from(select from_unixtime(cast(substring(1611231717343,0,10) as bigint),'yyyy-MM-dd HH:dd:ss') as t)tmp;执行结果如下:扩展:如果想转换成"yyyy-MM-dd HH:dd:ss",需要将13位时间戳转换成11位时间戳,注意转换过程中函数入参数据类型原创 2021-01-22 16:28:57 · 4106 阅读 · 1 评论 -
大数据Hive之group by、count、over
group by和count在Hive与mysql用法基本一致,今天说一下group by、count组合用法在hive中的需要注意的地方,以及实现一个功能的sql写法目标:统计表中id和总条数模型:tab(id string)输出:id、count(*)需求1:输出表中总记录数select count(*) from tab;需求2:输出表中id,总条数select id,count(*) from tab;这样计算就会报错解决方式两...原创 2021-01-05 15:37:46 · 2325 阅读 · 0 评论 -
hive——lag函数使用
环境hive2.x主要内容lag函数应用场景对某个字段排序,对排序后的结果计算相邻行的差值模型diff_age(id string,age int)("1",10)("2",30)("3",100)中间过程测试#求相邻id年龄插值selectid,age,lag(age,1,0) over(order by age) as syhfrom diff_age;-- 结果是全部是Nullselectid,age,l.原创 2020-12-15 15:32:15 · 14421 阅读 · 1 评论 -
hive之over开窗中的统计count与group by用法
话不多说,看代码需求是:分组统计传统分组统计sql,在Mysql和hive中是通用的模型create table tab(id string,part string)统计每个part有多少个id先说一下标准写法select count(*)from tabgroup by part;下面看一下over开窗写法和问题写法一:select part, count(*) over(partition by part)from ...原创 2020-11-09 11:11:35 · 2596 阅读 · 1 评论 -
hive之拉链表实现过程及剖析
1、创建拉链表create external if exists dwd_user_info( `id` string COMMENT '用户id', `name` string COMMENT '姓名', `start_date` string COMMENT '开始日期', `end_date` string COMMENT '结束日期')COMMENT '用户信息拉链表'2、初始化拉链表(导入2020-11-08数据)insert overwrite tabl...原创 2020-11-09 00:17:38 · 3221 阅读 · 0 评论 -
大数据hadoop常用端口-hadoop 3.x 通信端口
关于hadoop 2.x的通信端口参考上一篇博客namenode rpc-address 8020 namenode http-address 9870 namenode https-address 9871 datanode address 9866 datanode http-address 9864 datanode https-address 9865 resourcemanager ht.原创 2020-10-20 13:39:24 · 1395 阅读 · 1 评论 -
hadoop2.x、hive、hbase、zookeeper常用端口
组件 节点 默认端口 配置 用途说明 HDFS DateNode 50010 dfs.datanode.address datanode服务端口,用于数据传输 HDFS DateNode 50075 dfs.datanod...原创 2020-10-20 13:37:11 · 341 阅读 · 0 评论 -
FlinkSQL建表语句与插入语句
FlinkSQL来构建实时数仓,其思路大概如下:Flink的Table API提供了对kafka/jdbc/hbase等实时开发涉及到的组件的支持,以kafka为例,将kafka topic抽象成Flink Table,如下:FlinkSQL读数据建表语句CREATE TABLE flink_rtdw.demo.kafka_source_table ( topic STRING, bidWord STRING, planID STRING, eventTime INTEGER,...原创 2020-10-09 10:38:10 · 6518 阅读 · 0 评论 -
hadoop之namenode检查点机制
NameNode使用两个文件来保留其命名空间:fsimage,它是命名空间和编辑的最新检查点,是自检查点以来命名空间更改的日志(日志)。当NameNode启动时,它会合并fsimage和edits journal以提供文件系统元数据的最新视图。NameNode然后用新的HDFS状态覆盖fsimage并开始一个新的编辑日志。Checkpoint节点定期创建命名空间的检查点。它从活动的NameNode下载fsimage和editlog,在本地合并它们,并将新映像上传回活动的NameNode。Checkpoi原创 2020-09-23 19:35:32 · 1138 阅读 · 0 评论 -
waterdrop介绍
WaterdropWaterdrop 是一个非常易用,高性能、支持实时流式和离线批处理的海量数据处理产品,架构于Apache Spark 和 Apache Flink之上。Waterdrop尽所能为您解决可能遇到的问题:数据丢失与重复任务堆积与延迟吞吐量低应用到生产环境周期长缺少应用运行状态监控Waterdrop 使用场景海量数据ETL海量数据聚合多源数据处理Waterdrop 的特性简单易用,灵活配置,无需开发实时流式处理高性能海量数据处理能力模块化和插件化,易于扩原创 2020-09-23 19:33:10 · 19229 阅读 · 0 评论 -
ER详解及powerdesigner工具使用
一、概念数据模型概述数据模型是现实世界中数据特征的抽象。数据模型应该满足三个方面的要求:1)能够比较真实地模拟现实世界2)容易为人所理解3)便于计算机实现概念数据模型也称信息模型,它以实体-联系(Entity-RelationShip,简称E-R)理论为基础,并对这一理论进行了扩充。它从用户的观点出发对信息进行建模,主要用于数据库的概念级设计。通常人们先将现实世界抽象为概念世界,然后再将概念世界转为机器世界。换句话说,就是先将现实世界中的客观对象抽象为实体(Entity)和联系(Relatio原创 2020-09-22 17:13:11 · 2742 阅读 · 0 评论 -
waterdrop介绍
开源大数据技术,会不断更新原创 2020-09-21 10:10:15 · 1970 阅读 · 0 评论 -
hadoop文件路径权限修改——chown
修改hdfs路径的文件路径所属用户权限时,报错,提示org.apache.hadoop.security.AccessControlException: Non-super user cannot change owner.意思是说当前用户执行修改用户权限时,不是超级用户,不能执行在hadoop中root用户不是最高权限用户切换hdfs用户,再次执行命令hadoop dfs -chown -R admin /apps/hive这里是修改文件夹, 加了-R ,如果是文件则不需要..原创 2020-07-24 17:09:35 · 5254 阅读 · 0 评论 -
修改hive计算引擎
修改hive计算引擎进入hive客户端设置mapreduce引擎set hive.execution.engine=mr;设置tez引擎set hive.execution.engine=tez;设置spark引擎set hive.execution.engine=spark;原创 2020-07-24 16:56:12 · 1209 阅读 · 0 评论