- 博客(22)
- 资源 (1)
- 收藏
- 关注
原创 数据治理心得
数据治理数据治理字面上就是把数据管理好,为啥还要这么重视。原因就是开发同学为了实现产品功能,有的把数据存储在mysql/oracle这样的数据库里,有的直接log日志文件里,有的怼到redis,还有搞到kafka等等。比如为了解决大量用户同时访问的问题,有可能分库分表了。a同学支持了一下数据需求,b同学支持了另外一个数据需求。ab同学互相不懂对方逻辑,业务方也只能指定的找ab。数据支持变成了人肉支持,而且一个人的力量还是有限的。专业的来说,数据主要有两大块,一块是历史已经有了的数据-存量数据,一块是每天
2021-07-26 09:16:33 996
原创 大数据常见读写
HDFS读流程1.client访问NameNode,查询元数据信息,获得这个文件的数据块位置列表,返回输入流对象。2.就近挑选一台datanode服务器,请求建立输入流。3.DataNode向输入流中中写数据,以packet为单位来校验。4.关闭输入流HDFS写流程1、客户端向NameNode发出写文件请求。2、检查是否已存在文件、检查权限。若通过检查,直接先将操作写入EditLog,并返回输出流对象。3、client端按128MB的块切分文件。4、client将NameNode返回的Da
2021-07-05 16:19:36 323
转载 [bug]spark overwrite oracle truncate修改了表结构
我正在使用spark df write写入oracle表-写入数据时,底层的oracle表结构将通过spark进行更改df.write.mode(SaveMode.Overwrite).jdbc(targetJdbcUrl, targetTable, targetProps)source_desc varchar(200)会变成 source_desc varchar(255)改为mode(SaveMode.Append)就能解决了,truncate通过自己jdbc去前置把。...
2021-06-17 14:09:46 467 1
原创 es查询教程
目录range范围查询exists字段是否存在filter过滤match查询matchmatch_phrasemulti_matchprefix前缀搜索(不常用)wildcard通配符(不常用)regexp正则搜索(不常用)term精确查询range范围查询 "range":{ "@timestamp":{ "gte":"2021-05-25T02:34:01.
2021-05-27 11:47:55 465
原创 flume面试题
目录1.flume数据传输怎么监控?2.source、channel、sink常用的类型sourcechannelsink3.拦截器,channel选择器,sink 组,sink处理器4.source channel sink常用参数,如何调优5.事务机制与传输流程6.flume采集数据会丢失吗?1.flume数据传输怎么监控?2.source、channel、sink常用的类型sourcenetcat tcp source【监听端口数据】常用属性:type: netcatbind: 监听
2021-05-19 16:34:10 300
原创 spark开发教程
spark开发教程目录spark开发教程前言一、初始化spark二、获取数据源创建数据结构连接外部数据textfile2.读入数据总结前言spark开发主要的基于RDD、Datasets、DataFrame、sql 。其中rdd是最核心的底层,Datasets、DataFrame、sql都是基于rdd封装的高级api,dataframe是datasets的一种(类型为row)。一、初始化spark一个spark脚本的提交,会产生一个driver,如何通过把driver的运行逻辑传递给各个exe
2021-05-18 15:32:33 2268
原创 kafka问题整理
kafka经典问题整理1. kafka的ISR,AR代表什么?2.kafka的HW,LEO代表什么?3.kafka怎么体现消息的顺序性?4.kafka分区器、序列化器、拦截器处理顺序?5.kafka生产者客户端结构如何?几个线程?分别是什么?6.消费组中消费组个数超过分区个数,是否会导致有的消费者无法消费数据?7.消费者提交位移时,是offset还是offset+18.哪些场景会造成重复消费9.哪些场景会造成消息漏掉10.当使用kafka-topics.sh创建topic时,kafka背
2021-05-08 15:48:54 165
原创 datax基于java数据同步(自建数据平台)
背景介绍公司搭建自己的数据平台,datax作为数据采集工具还是非常强有力的,但是官方是通过python调取datax.py文件实现数据同步的,没法子很好的集成在自己的数据平台上。步骤下载datax源码在pom文件中去掉暂时用不到的reader、writer,这样maven时间比较块<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi
2021-04-28 17:31:29 1364
原创 数仓之flink数据采集
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar
2021-04-27 17:53:51 1221
原创 数仓之spark数据采集
概要由于spark可以接入非常多的数据源,且能够完美连接hive库,那么离线数仓以spark作为数据采集工具,将是一个方便可行的方案。配置文件json参考alibaba开发的datax数据同步工具,及目前的flinkx数据同步工具,以json文件作为配置文件,主要分为reader模块,writer模块。这里列出hive->mysql的json demo{ "cluster":"10.40.3.26", "reader":{ "name":"hivereader", "s
2021-04-27 17:27:15 1613
原创 datax增量抽取mongoDB
背景介绍公司现在数据采集增加了一个数据源mongoDB,目前是采用阿里datax工具抽取,高高兴兴去官网查看json demo。发现demo里没有query,那选填的query应该怎么填呢?解决思路既然demo没有给,那就看看它的源码怎么写的吧(很忐忑,源码逻辑千万不要太难,不然看不懂)。咦,发现还是很明了的,query的出现在Document queryFilter = Document.parse(query);点进去一看,是个json字符串,然后再百度一下mongodb的条件查询,结合上面代
2021-01-26 16:43:32 5415 2
原创 datax如何支撑hive分区表
背景介绍公司要搭建数据中台,离线数据采集就是其中重要一环,目前是基于alibaba的datax组件来搞得,整体来说日志非常清晰,定位问题非常好。but,它就是没办法支持hive分区表。原因是,datax写入hdfs时,必须要一个存在的hdfs目录,不然就报错,它不自动创建。分区表的分区对应的是目录,所以肯定不存在这个目录的。解决思路修改hdfswrite插件,在写入hdfs的时候,指定的分区路径如果不存在就创建一个。解决步骤第一步下载datax源码链接解压修改hdfswrite插件源码
2020-11-02 20:00:56 6104 8
原创 linux离线安装python(apache-superset )
背景介绍公司的服务器是离线的centos7环境的,项目需要,部署superset,作为开源的可视化bi工具整体思路在线superset安装由于superset涉及的依赖包贼多,通过手动去pypi网站下载离线包安装,不太现实。因此本地搭建一个centos7的虚拟机,pip install apache-superset (默认版本就ok)python superset db upgrade (需要进入superset的bin目录下)flask fab create-admin (export
2020-10-09 10:48:22 764 1
原创 python连接hive
背景需要连接hive获取,hive表信息。而且是在windows上开发,linux上部署impala连接hive本地windows环境为python37,pip3 uninstall sasl #如果无法安装,那么就去site-packages目录下删除它pip3 install impylapip3 install pure-saslpip3 install thrift_sasl==0.2.1 --no-depsfrom impala.dbapi import connect#hiv
2020-09-21 16:40:34 250
原创 hive库的存储与压缩
常见的三种文件格式存储格式存储方式textfile默认存储格式,行存储ORCFile按照行分块,块按照列存储,每个块都存储有一个索引,数据压缩率非常高parquet行式存储,很好的压缩性能,可以减少大量的表扫描和反序列化的时间选择综合性能最优的两种存储格式:orc和parquethive一般用orc,spark一般用parquet,snappy配合parquet性能最高。hive标准建表语句CREATE TABLE student_orcfile_zlib
2020-09-16 15:15:14 117
原创 集群管理yarn与zookeeper
其实咱们经常写代码,不咋用到这两个东西,只是会在配置信息写一下。yarn 与 zookeeper的区别是啥两者都是集群节点管理的软件,侧重点不同。yarn更多的是集群的资源分配管理,集群的所有机器还有多少内存啊,存储啊,cpu啊等,通过yarn去协调各个应用程序的计算资源,保证服务器不因为资源的问题在某个时间点挂了,从而保证程序的稳定运行。zookeeper更多的是集群数据的一致性,保证大家从集群看到的信息都是一样的,主要做一些配置管理,分布式锁啊等。yarn大数据是离不开yarn的,除了had
2020-09-14 17:03:20 412
原创 数据中台之flume
下载flume安装flume下载地址新增配置文件先在flume的conf目录下新建一个文件 example.conf# 定义这个agent中各组件的名字(对应后面命令的a1)a1.sources = r1a1.sinks = k1a1.channels = c1# 描述和配置source组件:r1# 类型:具体实现的名称,如果接受linux下的nc端口,则为这个名称,下面为绑定的IP和端口#source的种类a1.sources.r1.type = netcat a1.sou
2020-09-14 10:07:20 162
原创 数据中台搭建流程
这里写自定义目录标题数据中台是什么,为什么要搭建数据中台数据中台的技术框架如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入数据中台是什么,为什么要搭建数据中台目前互联网大家都熟悉前段开发,后端开发,对于中端开发都没有概念。前期的互联网,大家就是疯狂的使用各种功能,比如支
2020-09-14 09:07:41 3032
mysql-5.6.49-linux-glibc2.12-x86_64.tar.gz
2020-09-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人