csdn_wr
码龄6年
关注
提问 私信
  • 博客:28,191
    28,191
    总访问量
  • 21
    原创
  • 907,628
    排名
  • 4
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 目前就职: 中国联通
  • 加入CSDN时间: 2018-11-08
博客简介:

csdn_wr的博客

查看详细资料
个人成就
  • 获得12次点赞
  • 内容获得14次评论
  • 获得52次收藏
创作历程
  • 3篇
    2022年
  • 12篇
    2021年
  • 7篇
    2020年
成就勋章
TA的专栏
  • 大数据-数据库-KAFKA
    1篇
  • 大数据-计算引擎-FLINK
    1篇
  • 大数据-架构
    2篇
  • 大数据-数据同步-FLUME
    2篇
  • 大数据-计算引擎-SPARK
    3篇
  • 大数据-数据库-HIVE
  • 大数据-数据同步-DATAX
    4篇
兴趣领域 设置
  • 大数据
    hive大数据数据仓库
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

186人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

flume SpoolDirectorySource二次开发新增文件监控

flume 文件监控 改造
原创
发布博客 2022.12.18 ·
426 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

datax列越界,datax文本限定符,datax文本引号问题

datax列越界,datax文本引号问题
原创
发布博客 2022.12.05 ·
1492 阅读 ·
2 点赞 ·
1 评论 ·
2 收藏

hivemate修改表注释

hivemate修改表注释
原创
发布博客 2022.07.18 ·
542 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据治理心得

数据治理数据治理字面上就是把数据管理好,为啥还要这么重视。原因就是开发同学为了实现产品功能,有的把数据存储在mysql/oracle这样的数据库里,有的直接log日志文件里,有的怼到redis,还有搞到kafka等等。比如为了解决大量用户同时访问的问题,有可能分库分表了。a同学支持了一下数据需求,b同学支持了另外一个数据需求。ab同学互相不懂对方逻辑,业务方也只能指定的找ab。数据支持变成了人肉支持,而且一个人的力量还是有限的。专业的来说,数据主要有两大块,一块是历史已经有了的数据-存量数据,一块是每天
原创
发布博客 2021.07.26 ·
1005 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据常见读写

HDFS读流程1.client访问NameNode,查询元数据信息,获得这个文件的数据块位置列表,返回输入流对象。2.就近挑选一台datanode服务器,请求建立输入流。3.DataNode向输入流中中写数据,以packet为单位来校验。4.关闭输入流HDFS写流程1、客户端向NameNode发出写文件请求。2、检查是否已存在文件、检查权限。若通过检查,直接先将操作写入EditLog,并返回输出流对象。3、client端按128MB的块切分文件。4、client将NameNode返回的Da
原创
发布博客 2021.07.05 ·
324 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

[bug]spark overwrite oracle truncate修改了表结构

我正在使用spark df write写入oracle表-写入数据时,底层的oracle表结构将通过spark进行更改df.write.mode(SaveMode.Overwrite).jdbc(targetJdbcUrl, targetTable, targetProps)source_desc varchar(200)会变成 source_desc varchar(255)改为mode(SaveMode.Append)就能解决了,truncate通过自己jdbc去前置把。...
转载
发布博客 2021.06.17 ·
474 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

大数据架构图

原创
发布博客 2021.05.31 ·
208 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

es查询教程

目录range范围查询exists字段是否存在filter过滤match查询matchmatch_phrasemulti_matchprefix前缀搜索(不常用)wildcard通配符(不常用)regexp正则搜索(不常用)term精确查询range范围查询 "range":{ "@timestamp":{ "gte":"2021-05-25T02:34:01.
原创
发布博客 2021.05.27 ·
467 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

flume面试题

目录1.flume数据传输怎么监控?2.source、channel、sink常用的类型sourcechannelsink3.拦截器,channel选择器,sink 组,sink处理器4.source channel sink常用参数,如何调优5.事务机制与传输流程6.flume采集数据会丢失吗?1.flume数据传输怎么监控?2.source、channel、sink常用的类型sourcenetcat tcp source【监听端口数据】常用属性:type: netcatbind: 监听
原创
发布博客 2021.05.19 ·
300 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark开发教程

spark开发教程目录spark开发教程前言一、初始化spark二、获取数据源创建数据结构连接外部数据textfile2.读入数据总结前言spark开发主要的基于RDD、Datasets、DataFrame、sql 。其中rdd是最核心的底层,Datasets、DataFrame、sql都是基于rdd封装的高级api,dataframe是datasets的一种(类型为row)。一、初始化spark一个spark脚本的提交,会产生一个driver,如何通过把driver的运行逻辑传递给各个exe
原创
发布博客 2021.05.18 ·
2271 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

kafka问题整理

kafka经典问题整理1. kafka的ISR,AR代表什么?2.kafka的HW,LEO代表什么?3.kafka怎么体现消息的顺序性?4.kafka分区器、序列化器、拦截器处理顺序?5.kafka生产者客户端结构如何?几个线程?分别是什么?6.消费组中消费组个数超过分区个数,是否会导致有的消费者无法消费数据?7.消费者提交位移时,是offset还是offset+18.哪些场景会造成重复消费9.哪些场景会造成消息漏掉10.当使用kafka-topics.sh创建topic时,kafka背
原创
发布博客 2021.05.08 ·
166 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

datax基于java数据同步(自建数据平台)

背景介绍公司搭建自己的数据平台,datax作为数据采集工具还是非常强有力的,但是官方是通过python调取datax.py文件实现数据同步的,没法子很好的集成在自己的数据平台上。步骤下载datax源码在pom文件中去掉暂时用不到的reader、writer,这样maven时间比较块<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi
原创
发布博客 2021.04.28 ·
1368 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

数仓之spark数据采集

概要由于spark可以接入非常多的数据源,且能够完美连接hive库,那么离线数仓以spark作为数据采集工具,将是一个方便可行的方案。配置文件json参考alibaba开发的datax数据同步工具,及目前的flinkx数据同步工具,以json文件作为配置文件,主要分为reader模块,writer模块。这里列出hive->mysql的json demo{ "cluster":"10.40.3.26", "reader":{ "name":"hivereader", "s
原创
发布博客 2021.04.27 ·
1627 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

数仓之flink数据采集

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar
原创
发布博客 2021.04.27 ·
1222 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

datax增量抽取mongoDB

背景介绍公司现在数据采集增加了一个数据源mongoDB,目前是采用阿里datax工具抽取,高高兴兴去官网查看json demo。发现demo里没有query,那选填的query应该怎么填呢?解决思路既然demo没有给,那就看看它的源码怎么写的吧(很忐忑,源码逻辑千万不要太难,不然看不懂)。咦,发现还是很明了的,query的出现在Document queryFilter = Document.parse(query);点进去一看,是个json字符串,然后再百度一下mongodb的条件查询,结合上面代
原创
发布博客 2021.01.26 ·
5427 阅读 ·
6 点赞 ·
2 评论 ·
15 收藏

datax如何支撑hive分区表

背景介绍公司要搭建数据中台,离线数据采集就是其中重要一环,目前是基于alibaba的datax组件来搞得,整体来说日志非常清晰,定位问题非常好。but,它就是没办法支持hive分区表。原因是,datax写入hdfs时,必须要一个存在的hdfs目录,不然就报错,它不自动创建。分区表的分区对应的是目录,所以肯定不存在这个目录的。解决思路修改hdfswrite插件,在写入hdfs的时候,指定的分区路径如果不存在就创建一个。解决步骤第一步下载datax源码链接解压修改hdfswrite插件源码
原创
发布博客 2020.11.02 ·
6111 阅读 ·
2 点赞 ·
8 评论 ·
10 收藏

linux离线安装python(apache-superset )

背景介绍公司的服务器是离线的centos7环境的,项目需要,部署superset,作为开源的可视化bi工具整体思路在线superset安装由于superset涉及的依赖包贼多,通过手动去pypi网站下载离线包安装,不太现实。因此本地搭建一个centos7的虚拟机,pip install apache-superset (默认版本就ok)python superset db upgrade (需要进入superset的bin目录下)flask fab create-admin (export
原创
发布博客 2020.10.09 ·
765 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

python连接hive

背景需要连接hive获取,hive表信息。而且是在windows上开发,linux上部署impala连接hive本地windows环境为python37,pip3 uninstall sasl #如果无法安装,那么就去site-packages目录下删除它pip3 install impylapip3 install pure-saslpip3 install thrift_sasl==0.2.1 --no-depsfrom impala.dbapi import connect#hiv
原创
发布博客 2020.09.21 ·
252 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive库的存储与压缩

常见的三种文件格式存储格式存储方式textfile默认存储格式,行存储ORCFile按照行分块,块按照列存储,每个块都存储有一个索引,数据压缩率非常高parquet行式存储,很好的压缩性能,可以减少大量的表扫描和反序列化的时间选择综合性能最优的两种存储格式:orc和parquethive一般用orc,spark一般用parquet,snappy配合parquet性能最高。hive标准建表语句CREATE TABLE student_orcfile_zlib
原创
发布博客 2020.09.16 ·
118 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

集群管理yarn与zookeeper

其实咱们经常写代码,不咋用到这两个东西,只是会在配置信息写一下。yarn 与 zookeeper的区别是啥两者都是集群节点管理的软件,侧重点不同。yarn更多的是集群的资源分配管理,集群的所有机器还有多少内存啊,存储啊,cpu啊等,通过yarn去协调各个应用程序的计算资源,保证服务器不因为资源的问题在某个时间点挂了,从而保证程序的稳定运行。zookeeper更多的是集群数据的一致性,保证大家从集群看到的信息都是一样的,主要做一些配置管理,分布式锁啊等。yarn大数据是离不开yarn的,除了had
原创
发布博客 2020.09.14 ·
413 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多