大数据
文章平均质量分 86
小明同学YYDS
good good study!day day up!
展开
-
数据湖之Hudi:基于Spark引擎使用Hudi的DeltaStreamer组件工具
HoodieDeltaStreamer工具 (hudi-utilities-bundle中的一部分) 提供了从DFS或Kafka等不同来源进行摄取的方式,并具有以下功能:精准一次从Kafka采集新数据,从Sqoop、HiveIncrementalPuller的输出或DFS文件夹下的文件增量导入导入的数据支持json、avro或自定义数据类型管理检查点,回滚和恢复利用 DFS 或 Confluent schema registry的 Avro Schema支持自定义转换操作。原创 2023-01-19 16:00:35 · 2264 阅读 · 1 评论 -
数据治理:数据治理之道-数据文化-数据思维融入企业文化
在企业的数据管理和应用的实践中,应以业务目标为核心,以数据为基础,以技术为支撑,以制度为保障,将数据文化“内化于心,外化于行,固化于制”,将“数据驱动”应用到实际的工作中,使其成为员工的自觉行为,并做到“知行合一” 拥有数据思维才能发现数据价值。企业数据治理治的不仅是数据,更是企业全员的思维方式。数字化趋势下,**数字化转型是当今企业的重要战略目标**,良好的企业文化为员工提供了做选择时的指导方针,有利于企业数字化目标的实现。**良好的数据文化有利于企业更快地做出科学决策,从而推动技术和商业模式创原创 2023-01-19 00:42:58 · 3007 阅读 · 0 评论 -
数据治理:数据治理之道-组织机制-敏捷的治理组织
数据治理,敏捷组织,是能灵敏感知环境并迅速应对的组织。敏捷组织有如下特点:(1)架构灵活企业组织从传统的金字塔层级结构转向灵活的扁平结构,消除了上下级结构之间的治通壁垒,使其能够在应对前端多变的业务时聚焦于目标和行动,收放自如,柔性应对。(2)数据驱动企业经营从上级权威指令驱动转向数字驱动,数据成为企业的核心资产,用户数据流向决定产品和业务流向,并成为决策的重要依据。(3)员工能动在协作方式上,企业从传统绩效评价导向转变为自我驱动、团队协同模式。原创 2023-01-18 00:38:52 · 2001 阅读 · 0 评论 -
数据湖之Hudi基础:集成Spark
主要记录下的整合Spark操作,操作内容参考尚硅谷Hudi公开资料以及Hudi官方文档具体参看官方文档:https://hudi.apache.org/docs/0.12.1/quick-start-guide。Hudi集成spark原创 2023-01-18 00:18:54 · 1759 阅读 · 0 评论 -
数据湖之Hudi基础:核心原理
数据湖核心概念,copy on write,merge on read,Hudi的核心是维护表上在不同的即时时间(instants)执行的所有操作的时间轴(timeline)Hudi通过索引机制提供高效的upserts简称MOR表。包含列存的基本文件(.parquet)和行存的增量日志文件(基于行的avro格式,.log.*)。原创 2023-01-17 11:49:44 · 948 阅读 · 0 评论 -
数据湖之Hudi基础:入门介绍和编译部署
Hudi手动编译部署。Apache Hudi(Hadoop Upserts Delete and Incremental)是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发,同时保持数据的开源文件格式。Apache Hudi不仅非常适合于流工作负载,而且还允许创建高效的增量批处理管道。Apache Hudi可以轻松地在任何云存储平台上使用。原创 2023-01-16 17:09:05 · 1343 阅读 · 2 评论 -
数据治理:数据治理之道-数据战略
一组选择和决定,他们共同制定了实现高级目标的高级行动方案激动人心的数据管理愿景数据管理商业案例摘要,附带精选案例指导原则、价值观和管理远景数据管理的使命和长远目标数据管理成功的关键措施短期的数据管理方案目标数据管理的组织和角色及其职责数据管理的实施路线图数据管理的项目章程数据管理的范围说明数据战略是组织开展数据工作的愿景、目的、目标和原则。它包含数据战略规划、数据战略实施和数据战略评估。原创 2022-12-29 19:45:02 · 917 阅读 · 0 评论 -
数据治理:企业数据治理蓝图
- 数据治理:治理是自顶向下的策略或活动,比如国家治理、公司治理。因此数据治理应该是企业顶层设计,战略规划方面的内容- 数据管理:是为实现数据和信息资产价值的获取、控制、保护、交付以及提升,对政策、实践和项目所作的计划、执行和监督。笔者认为,数据管理是执行和落实数据治理策略并在过程中给给与反馈,强调管理流程和制度,涵盖不同的管理领域,比如元数据管理、主数据管理、数据标准管理、数据质量管理、数据安全管理、数据服务管理、数据集成- 数据管控:数据管控侧重执行层面,是具体落地执行所涉及的各种措施,例如数据建模原创 2022-12-29 00:40:08 · 1766 阅读 · 0 评论 -
数据治理:数据治理框架和标准
本文概述的是国内外的主流的数据治理框架和标准,作为指导学习,当然不同企业仍然是根据企业自身情况参考。而DCMM数据能力成熟度这个是每个数据处理企业比定的级,也是企业数据成熟度能力的一个参考项,越来越多的企业合作伙伴重视此项评级。国际上,主流的数据治理框架主要有:ISO数据治理标准、GDI数据治理框架、DAMA数据管理框架。对国际主流数据治理框架的理解,有助于我们建立符合自身业务需求的数据治理体系。原创 2022-12-28 22:58:01 · 3653 阅读 · 0 评论 -
数据治理:认识数据治理
# 数据治理是什么笔者自我理解就是:对数据进行任何规整处理,包括从数据从业务系统接入到最后被业务系统查询应用的这其中整个过程,都是数据治理。然而,不同数据团队或者不同企业对数据治理的理解和定义却不尽相同- 《一本书讲透数据治理》作者定义:所有为提高数据质量而展开的技术、业务和管理活动都属于数据治理范畴。数据治理的最终目标是提升数据利用率和数据价值,通过有效的数据资产管控手段,实现数据的看得见、找得到、管的住、用的好、提升数据质量和数据价值。原创 2022-12-28 19:24:14 · 1979 阅读 · 0 评论 -
Kafka监控EFAK(Kafka-eagle)部署与踩坑详细记录
Kafka图形化监控 EFAK,Kafka-eagle部署与踩坑详细记录。mysql的ke数据库的表创建语句;内存和CPU以及Version展示异常;ERROR - JMX service url[xxxx:9999] create has error,msg is java.lang.NullPointerException;java.rmi.ConnectException: Connection refused to host: xxxx;原创 2022-10-10 17:18:04 · 6851 阅读 · 2 评论 -
Spark:基于PySpark的逻辑回归和决策树模型对泰旦尼克号幸存者预测的机器学习流程
基于PySpark,使用spark的MLLib部分机器学习包,SparkML,对Kaggle入门初级案例:泰坦尼克号幸存者预测的案例,从数据分析,数据清洗,数据整理,特征工程,特征向量化等完整流程示例,最后基于SparkML包中的逻辑回归和决策树模型进行了模型构建和预测测试原创 2022-02-13 21:21:26 · 3369 阅读 · 0 评论 -
Spark:基于PySpark的DataFrame、SQL、TableAPI操作
基于PySpark的常用DataFrame操作、SQL演示、TableAPI操作。包括官方文档附件和如何在JupterNoteBook上测试PySpark原创 2022-02-11 23:51:45 · 1153 阅读 · 0 评论 -
Spark:PySpark的RDD算子操作-基于JupyterNotebook
完整的Spark算子操作演示,基于PySpark,整合Jupyternotebook演示,每个算子调用方式,参数列表、行动算子或变换算子说明,功能说明,演示代码,输出结果一应俱全,方便查验原创 2022-02-11 20:01:59 · 1151 阅读 · 0 评论 -
Spark:JupyterNotebook整合PySpark开发环境
详细介绍windows和linux环境安装部署Spark开发环境;详细演示jupyternotebook整合pyspark,方便在notebook上开发测试pyspark,完整演示流程原创 2022-02-11 18:33:08 · 3087 阅读 · 1 评论 -
Flink:程序打包与提交任务运行
记录下,同事在自己环境弄,出了一堆问题,搞个wordcount的流计算打包发布搞不通,,,网上资料对于flink版本层次不齐,想想还是记录下个人在1.11.x版本的处理,别在这事上浪费时间对应节点贴上了官网文档位置,最好的文档就是官方文档文章目录环境工程运行逻辑代码pom文件依赖打包插件提交到Flink运行UI界面提交命令行提交提交任务保存一个savepoint从savepoint启动环境maven V3.6.xFlink 1.11.xJDK 1.8Scala 2.11.x 2.12.x都.原创 2021-09-02 17:58:26 · 2391 阅读 · 0 评论 -
大数据之Storm(一):集群部署
介绍集群的安装与配置方式 安装包及环境安装1.解压安装包2.修改配置文件3.分发配置好的安装包4.启动集群5.查看集群安装包及环境安装包:apache-storm-0.10.2.tar.gz 去storm官网下载即可默认安装好了:JDK7、zookeeper集群Centos7,用户名为mym上操作三台机器配置好了主机映射名(zk和st...原创 2020-01-06 15:13:50 · 134 阅读 · 0 评论 -
服务器安装与配置Hive
记录服务器上部署Hive组件文章目录机器环境准备Hive 安装及配置Hive 基本操作机器环境Centos7HDFS(启动好)mysql(保证服务可用–可选)jdk准备1.Hive 官网地址http://hive.apache.org/2.文档查看地址https://cwiki.apache.org/confluence/display/Hive/Gettin...原创 2019-11-30 23:01:33 · 820 阅读 · 0 评论 -
大数据之ES:原理详解、技能大赏与API操作示例
来吧,架构深入和技能大赏以及HTTP操作示例说明:部分图片和概念叙述来自于atguigu公开资料和ES官网文章目录ES 技能大赏ES原理深入核心概念故障转移路由计算分片控制写操作读操作更新流程多文档操作流程分片原理动态更新索引近实时搜索持久化变更段合并文档分析分析器使用场景指定分析器自定义分词器文档处理文档冲突外部系统版本控制HTTP 操作索引操作文档操作映射操作创建映射查看映射索引映射关联高级查询查询所有文档匹配查询字段匹配查询关键字精确查询多关键字精确查询指定查询字段过滤字段组合查询范围查询模糊.原创 2021-08-27 11:36:18 · 807 阅读 · 0 评论 -
大数据之ES:简介与Window部署、Linux单机和Linux集群部署以及集群部署问题
记录下,部分叙述说明参考网上资源和尚硅谷开放资源,如有侵权,请联系删除文章目录简介全文搜索引擎Elasticsearch And SolrES OR SolrElasticsearch 应用案例安装部署Windows安装Linux单机安装Linux集群安装集群启动异常问题集群不能发现数据格式映射简介ES是分布式、RESTful风格的搜索和数据分析引擎。作为The Elastic Stack的核心The Elastic Stack, 包括 Elasticsearch、Kibana、Beats 和 .原创 2021-08-24 15:52:48 · 975 阅读 · 0 评论 -
Flink:DataStream、TableAPI&SQL技能大赏
概要堆叠式技能大赏,包括Flink的运行架构、DataStream API、TableAPI、CEP、SQL文章目录Flink API技能大赏Flink SQL技能大赏Flink API技能大赏看图自己回忆各个模块并散发式产生各个实际概念和应用方式以及应用场景Flink SQL技能大赏看图自己回忆各个SQL语法并散发式产生各个实际运行流程和应用方式以及应用场景...原创 2021-08-23 18:42:32 · 190 阅读 · 0 评论 -
大数据之Phoenix:Phoenix+HBase、DDL、DML和二级索引的使用
记录下,方便查官方文档:文章目录DDL查看所有表创建表查看表结构修改表删除表退出命令行DML插入记录查询记录删除记录修改记录Phoenix表映射视图映射表映射HBase中表不存在时HBase中表存在时视图映射和表映射总结Phoenix创建HBase二级索引配置 HBase 支持 Phoenix 创建二级索引测试二级索引Phoenix 索引分类全局索引局部索引Local index 和 Global index区别删除索引DDL查看所有表0: jdbc:phoenix:mini1,mini2,mi.原创 2021-08-13 18:21:47 · 435 阅读 · 0 评论 -
大数据之Phoenix:介绍与安装部署
记录下Phoenix安装流程文章目录简介特点安装测试SQL简介Phoenix 最早是 saleforce 的一个开源项目,后来成为 Apache 的顶级项目。Phoenix 构建在 HBase 之上的开源 SQL 层. 能够让我们使用标准的 JDBC API 去建表, 插入数据和查询 HBase 中的数据, 从而可以避免使用 HBase 的客户端 API.在我们的应用和 HBase 之间添加了 Phoenix, 并不会降低性能, 而且我们也少写了很多代码.特点将 SQl.原创 2021-08-02 15:19:23 · 734 阅读 · 0 评论 -
Flink:ValidationException: Too many fields referenced from an atomic type/Field reference expression
文章目录环境报错发生场景原因解决因为不注意导致的不太直观知道问题原因的报错环境Flink 1.11.xscala 2.xjava8idea报错Exception in thread "main" org.apache.flink.table.api.ValidationException: Field reference expression expected. at org.apache.flink.table.typeutils.FieldInfoUtils.extractFiel原创 2021-08-02 14:03:24 · 1287 阅读 · 0 评论 -
大数据之ClickHouse:安装部署与性能测试
记录过程文章目录概述环境安装常用配置启动/检查服务命令行客户端卸载性能测试概述个人总结式理解,详细的去官网看吧俄罗斯搜索引擎公司Yandex研发,2016年开源的列式存储数据库主要用于在线OLAP不支持事务所以不支持OLTPClickHouse中文社区ClickHouse中文官网优势在于大宽表查询,join多个大表查询性能比不上一般的OLAP工具极致性能在于极致的压榨服务器...原创 2020-05-03 01:22:42 · 1292 阅读 · 0 评论 -
大数据之Presto:安装部署
记录过程概述这里就不复制粘贴了,描述自己理解的。具体详细的使用和介绍需要去官网学习更好2014年由FaceBook开源,为了解决自身规模的商业数据仓库的交互式分析和处理速度的问题OLAP大数据查询引擎,适用于交互式分析查询,数据量支持GB到PB字节设计为秒至分钟级别的响应master-slave架构(Coordinator-Worker)不是数据库只是个查询引擎(计算引擎),不...原创 2020-05-03 00:18:30 · 982 阅读 · 0 评论 -
大数据之Hadoop(一):Hadoop集群搭建
本文详细介绍了hadoop的集群搭建 环境修改主机名修改主机名和IP的映射关系关闭防火墙三台机器创建同名用户给用户赋予执行权限安装hadoop配置hadoop配置hadoop运行环境:hadoop-env.sh配置公共配置信息:core-site.xml配置hdfs信息(非必需,可用默认值):hdfs-site.xml配置计算平台resourceManag...原创 2020-01-06 15:14:07 · 189 阅读 · 0 评论 -
大数据之Azkaban(二):实战案例
记录之前使用azkaban遇到的情况与问题文章目录实战案例单一job案例多job工作流案例java操作任务HDFS操作任务mapreduce任务Hive脚本任务实战案例Azkaba内置的任务类型支持command、java单一job案例创建job描述文件:必须命名为.job#mym-first.jobtype=commandcommand=echo 'this is m...原创 2020-01-20 02:02:53 · 294 阅读 · 0 评论 -
大数据之Azkaban(一):介绍与安装部署
记录之前使用azkaban遇到的情况与问题文章目录概述简述特点架构安装部署准备安装生成密钥对和证书时间同步配置配置文件修改web服务器配置Server(Executor)配置启动服务概述Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的dependen...原创 2020-01-20 01:57:53 · 382 阅读 · 0 评论 -
大数据之Sqoop(二):Sqoop使用案例
记录sqoop的一些使用,复习下,此前项目中有用到,复习下安装与部署请参考文章目录使用案例导入数据RDBMS到HDFSRDBMS到HiveRDBMS到Hbase导出数据HIVE/HDFS到RDBMS脚本打包Sqoop一些常用命令及参数使用案例导入数据在Sqoop中,“导入”概念指:从非大数据集群(RDBMS)向大数据集群(HDFS,HIVE,HBASE)中传输数据,叫做:导入,即使用...原创 2020-01-19 21:02:30 · 379 阅读 · 0 评论 -
大数据之Sqoop(四):java.io.IOException:No columns to generate for ClassWriter
这两天做个项目使用到sqoop,这东西以前用过,现在有点忘了,出了点差错,记录下来文章目录环境报错问题原因解决环境hadoop 2.4.1jdk8sqoop 1.4.6centos7mysql 5.7.x报错[root@mym sqoop]# bin/sqoop import \> --connect jdbc:mysql://192.168.31.201:330...原创 2020-01-19 21:08:08 · 1656 阅读 · 0 评论 -
大数据之Sqoop(三):java.io.IOException Could not start Java compiler
这两天做个项目使用到sqoop,这东西以前用过,现在有点忘了,出了点差错,记录下来文章目录环境报错问题原因解决环境hadoop 2.4.1jdk8sqoop 1.4.6centos7mysql 5.7.x报错[root@mym sqoop]# bin/sqoop import --connect jdbc:mysql://192.168.31.201:3306/compa...原创 2020-01-19 21:05:49 · 1509 阅读 · 0 评论 -
大数据之Sqoop(一):Sqoop介绍与安装部署
记录sqoop的一些使用,复习下,此前项目中有用到,复习下文章目录简介原理安装准备下载部署修改配置文件简介用于hadoop(hive)与传统数据库Mysql等间进行数据传递,可让他们互相导入导出sqoop2与sqoop1不兼容原理导入导出命令翻译成mapreduce程序实现在翻译出的mapreduce中主要对inputformat和outputformat进行定制安装...原创 2020-01-19 20:57:12 · 330 阅读 · 0 评论 -
flume使用(三):实时log4j日志通过flume输出到MySql数据库
flume使用(一):入门demo flume使用(二):采集远程日志数据到MySql数据库本文在【flume使用(二):...原创 2018-02-26 20:54:35 · 2870 阅读 · 0 评论 -
flume使用(四):taildirSource多文件监控实时采集
flume使用(一):入门demo flume使用(二):采集远程日志数据到MySql数据库 ...原创 2018-02-27 17:51:36 · 19749 阅读 · 3 评论 -
flume使用(五):taildirSource重复获取数据和不释放资源解决办法
flume使用(一):入门demo flume使用(二):采集远程日志数据到MySql数据库 ...原创 2018-02-27 20:23:49 · 11741 阅读 · 5 评论 -
windows上安装运行flume
环境win7+jdk7+flume1.7注:最新版flume1.8需要jdk1.8支持安装jdk的安装不多赘述,flume1.7的安装。进入官网:http://flume.apache.org/ 然后找到1.7版本下载解压即可根据官方文档quickStart解压文件中打开docs文件夹中的index.html即可本地查看文档进入Flume 1.7.0 User Guide 根据stepup进行操作...原创 2018-02-25 13:23:24 · 5098 阅读 · 2 评论 -
flume使用(一):入门demo
注:windows的flume安装运行传送门:windows上安装运行flume环境Centos7+jdk7+flume1.7+telnet客户端注:最新版flume1.8需要jdk1.8支持安装jdk的安装不多赘述,flume1.7的安装。进入官网:http://flume.apache.org/ 然后找到1.7版本下载放到centos系统解压即可根据官方文档quickStart解压文件中打开d...原创 2018-02-25 20:27:30 · 6548 阅读 · 0 评论 -
大数据工具:IKAnalyzer分词工具介绍与使用
简单介绍IKAnalyzer分词工具与使用文章目录简介IKAnalyzer的引入使用IK的两个重要词典IK的使用简介以下简介参考前辈和项目文档介绍为什么要分词呢,刚开始介绍的时候介绍过,我们要提取语句的特征值,进行向量计算。所有我们要用开源分词工具把语句中的关键词提取出来。至于详细的介绍我们后期进行项目实战的时候会一一介绍,目前我们只需要学会用这个工具,为之后的项目实战打下基础...原创 2018-10-28 20:43:06 · 15031 阅读 · 0 评论 -
Kafka服务报错:java.nio.BufferUnderflowException 的解决
一次测试环境kafka服务报错解决文章目录问题现象问题分析得出原因解决问题现象kafka集群由3台组成,消费者生产者都正常在跑,数据也没啥问题,但是kafka服务端仍然在报错,报错信息如下:[2019-05-31 10:55:27,540] ERROR Processor got uncaught exception. (kafka.network.Processor)java.ni...原创 2019-05-31 22:24:32 · 4387 阅读 · 1 评论