不加班程序员
码龄8年
关注
提问 私信
  • 博客:137,028
    社区:1
    问答:14
    动态:477
    137,520
    总访问量
  • 61
    原创
  • 30,182
    排名
  • 312
    粉丝
  • 0
    铁粉

个人简介:小白一枚

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2017-07-28
博客简介:

SuperBoy_Liang的博客

博客描述:
多为自己在平时工作中总结
查看详细资料
  • 原力等级
    当前等级
    3
    当前总分
    497
    当月
    0
个人成就
  • 获得410次点赞
  • 内容获得14次评论
  • 获得510次收藏
  • 代码片获得425次分享
创作历程
  • 24篇
    2024年
  • 9篇
    2023年
  • 3篇
    2022年
  • 1篇
    2021年
  • 15篇
    2020年
  • 9篇
    2019年
  • 8篇
    2018年
  • 11篇
    2017年
成就勋章
TA的专栏
  • Hadoop相关
    37篇
  • 数据库
    3篇
  • kafka
    7篇
  • Flink学习过程
    8篇
  • 杂谈
    5篇
  • mysql
    7篇
  • spark
    15篇
  • 算法
    4篇
  • elasticsearch
    6篇
  • python
    13篇
  • 分词
    3篇
  • map
    2篇
  • storm
    1篇
  • 原理
    10篇
  • scala
    10篇
  • hive
    4篇
  • redis
    5篇
  • CDH
    2篇
  • azkaban
    1篇
  • ETL
    7篇
兴趣领域 设置
  • 大数据
    flink
  • 人工智能
    数据分析
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Elasticsearch实战应用-dsl语句

Elasticsearch常见的dsl语句操作
原创
发布博客 2024.11.18 ·
865 阅读 ·
28 点赞 ·
0 评论 ·
26 收藏

大数据治理概述

(Big Data Governance)是指通过一系列的管理框架、流程和工具,确保大数据的质量、合规性、安全性、可访问性和可控性。随着大数据技术的快速发展,企业和组织面临着大量和多样化的数据来源,以及如何有效管理和利用这些数据的问题。大数据治理的目标是通过对数据的全面管理和控制,确保数据在整个生命周期中保持高质量、合规性和安全性,从而支持决策制定、业务优化和创新。
原创
发布博客 2024.11.18 ·
420 阅读 ·
3 点赞 ·
0 评论 ·
7 收藏

Hive数据锁问题处理

hive排查、处理锁问题
原创
发布博客 2024.06.20 ·
521 阅读 ·
5 点赞 ·
0 评论 ·
4 收藏

RedisUtil

redis连接util scala代码。
原创
发布博客 2024.06.13 ·
143 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

flink消费kafka时获取元数据信息

flink消费kafka信息获取数据的元数据
原创
发布博客 2024.06.13 ·
642 阅读 ·
6 点赞 ·
1 评论 ·
0 收藏

flink-操作redis

redis中存储了部分域名与ip的对应关系数据,由于网络或者其他原因,会导致域名的ip地址为8.8.8.8,所以需要将这部分数据更新,现用flink进行相关操作。
原创
发布博客 2024.01.29 ·
815 阅读 ·
23 点赞 ·
0 评论 ·
6 收藏

将elasticsearch数据存储到excel中

由于elasticsearch数据在线上,偶尔需要将数据导到本地环境进行分析。目前有需求是将数据导入到excel表中,下面是我在用的实现方案。首先通过elasticdump组件将线上指定的index导出成文本文件。2、将生成的文本文件下载到指定位置存储,以我本地电脑为例。1、将线上elasticsearch数据备份成文件。3、通过python脚本将数据写入到excel。
原创
发布博客 2024.01.29 ·
2103 阅读 ·
13 点赞 ·
0 评论 ·
9 收藏

常见OLAP对比

但是Clickhouse也有它的局限性,在OLAP技术选型的时候,应该避免把它作为多表关联查询(JOIN)的引擎,也应该避免把它用在期望支撑高并发数据查询的场景,OLAP分析场景中,一般认为QPS达到1000+就算高并发,而不是像电商、抢红包等业务场景中,10W以上才算高并发,毕竟数据分析场景,数据海量,计算复杂,QPS能够达到1000已经非常不容易。Druid 支持低延时的数据摄取,灵活的数据探索分析,高性能的数据聚合,简便的水平扩展。:是在基于数据仓库多维模型的基础上实现的面向分析的各类操作的集合。
原创
发布博客 2024.01.27 ·
1182 阅读 ·
27 点赞 ·
0 评论 ·
21 收藏

华为参与打造的中医药大模型问世

通过整合九为健康在中医药领域的专业能力与华为云在AI大模型领域的技术优势,双方就市场推广、生态合作、人工智能联合创新等领域展开全面合作,携手打造中医药大模型。华为云盘古大模型坚持“AI for Industries”的理念,致力于深耕行业,目前已经推出了金融、政务、医疗、制造、矿山、气象、铁路等领域行业大模型。在医疗领域,通过盘古NLP大模型,利用大数据预训练、对多源丰富知识相结合,并通过持续学习吸收海量文本数据,不断提升模型的效果,提高中药研发效率和质量。
原创
发布博客 2024.01.27 ·
973 阅读 ·
10 点赞 ·
0 评论 ·
8 收藏

MySQL-删除重复数据

在实际应用中,遇到一个这样的问题,MySQL中存储的数据为资讯类数据,在页面展示时会出现多个平台的新闻报导相同的内容,导致页面会出现重复数据。因为数据是每天定期更新,所以最快捷有效的方式是在更新完数据后增加一个去重操作。写一个定时删除的脚本,每天定时执行,通过对数据中title进行聚合去重:将数据按title分组,取id最小的数据进行记录,然后将id不在该列表的数据删除。该错误大致意思为不能依据某字段值做判断再来更新某字段的值。多一次,就可以避免这个错误。的结果再通过一个中间表。解决方法:select。
原创
发布博客 2024.01.26 ·
638 阅读 ·
11 点赞 ·
0 评论 ·
7 收藏

统一社会信用代码的编码规则

例如,国家用100000,北京用110000,注册登记时由系统自动生成,体现法人和其他组织注册登记及其登记管理机关所在地,既满足登记管理部门按地区管理需求,也便于社会对注册登记主体所在区域进行识别。例如,机构编制部门可用1表示机关单位,2表示事业单位,3表示由中央编办直接管理机构编制的群众团体;例如,9表示工商,其他登记管理部门可使用相应阿拉伯数字或英文字母表示。统一社会信用代码=登记管理部门代码+机构类别代码+登记管理机关行政区划码+主体标识码(组织机构代码)+校验码】
原创
发布博客 2024.01.26 ·
4041 阅读 ·
8 点赞 ·
0 评论 ·
11 收藏

Doris安装部署文档

Apache Doris 如今在中国乃至全球范围内都拥有着广泛的用户群体,截止目前, Apache Doris 已经在全球超过 2000 家企业的生产环境中得到应用,在中国市值或估值排行前 50 的互联网公司中,有超过 80% 长期使用 Apache Doris,包括百度、美团、小米、京东、字节跳动、腾讯、网易、快手、微博、贝壳等。方面,Doris 采用列式存储,按列进行数据的编码压缩和读取,能够实现极高的压缩比,同时减少大量非相关数据的扫描,从而更加有效利用 IO 和 CPU 资源。
原创
发布博客 2024.01.25 ·
2091 阅读 ·
45 点赞 ·
0 评论 ·
22 收藏

全国首个!华为5.5G新突破:速率最高超4Gbps

作为5G-A的重要技术之一,三载波聚合(3CC)是5G-A的基础体验网,5G-A三载波聚合可以通过三载波组网方案,结合确定性体验保障等技术,进一步提升网络质量与体验。本次落地的百站三载波聚合选址青岛城区,继旅游景区后,完成高校、医院、步行街、交通枢纽等热点场景覆盖部署,全方位实现5G-A三载波聚合多场景落地验证。两地试点均达成5G-A下行峰值速率超4Gbps突破,标志着山东移动充分具备5G-A技术能力。据了解,5G-A全称5G-Advanced,也被称为5.5G,是5G的技术演进。
原创
发布博客 2024.01.25 ·
476 阅读 ·
11 点赞 ·
0 评论 ·
9 收藏

鸿蒙不想成为第二个Windows Phone

很多应用初版发布就成了最后一版:不再更新。从Windows Mobile到Windows Phone 7再到Windows Phone 8,每一次更迭微软都会废掉此前的系统内核,更换为新的内核,这不但让微软先前积累的优势、市场、经验化为乌有,而且由于内核变更带来的断层,使得消费者不得不更换手机才能升级到新系统。在18日的发布会上,华为宣布HarmonyOS NEXT的系统底座由华为自研完成,仅支持鸿蒙内核及鸿蒙系统的应用,不再兼容Android应用,也不支持打开APK文件(Android系统应用程序包)。
原创
发布博客 2024.01.24 ·
1036 阅读 ·
21 点赞 ·
0 评论 ·
27 收藏

Hive常见问题汇总

order by:order by是将数据按照指定的列排序输出,并且会改变数据的分区。cluster by:cluster by是对表进行分桶,每个分桶内的数据按照指定的列排序,并且会根据指定的列生成对应的分区文件。sort by:sort by是将数据按照指定的列排序输出,但不改变数据的分区,也就是说,sort by只保证每个分区内的数据有序,但不保证分区之间的顺序。增加Reduce数量:对于数据倾斜比较严重的情况,可以增加Reduce任务的数量,将数据划分到更多的节点上处理,从而减轻单个节点的负担。
原创
发布博客 2024.01.24 ·
725 阅读 ·
8 点赞 ·
0 评论 ·
11 收藏

数据仓库建模

在ER模型中抽象出了有实体、关系、属性三种类别,在现实世界中,每一个操作型事件,基本都是发生在实体之间的,伴随着这种操作事件的发生,会产生可度量的值,而这个过程就产生了一个事实表,存储了每一个可度量的事件。比如商品,单一主键:商品ID,属性包括产地、颜色、材质、尺寸、单价等, 但并非属性一定是文本,比如单价、尺寸,均为数值型描述性的,日常主要的维度抽象包括:时间维度表、地理区域维度表等。通过将数据按照多个维度进行切片和切块,可以支持复杂的查询和分析需求,如数据切片、钻取、滚动等操作。
原创
发布博客 2024.01.23 ·
1093 阅读 ·
18 点赞 ·
0 评论 ·
18 收藏

数据仓库-相关概念

数据仓库是一个用于集成、存储和管理大量数据的系统。它用于支持企业决策制定过程中的数据分析和报告需求。数据仓库从多个来源收集和整合数据,并将其组织成易于查询和分析的结构。数据仓库的主要目标是提供高性能的数据访问和分析能力,以便用户可以从不同的角度和层次上理解和解释数据。它通常包含历史数据,用于支持趋势分析和预测模型的建立。数据仓库不仅仅是一个存储数据的地方,它还提供了一系列工具和技术来支持数据清洗、转换、集成和加载等过程。
原创
发布博客 2024.01.23 ·
1761 阅读 ·
28 点赞 ·
0 评论 ·
18 收藏

flume自定义拦截器

flume 自定义拦截器
原创
发布博客 2024.01.22 ·
717 阅读 ·
9 点赞 ·
0 评论 ·
7 收藏

flume案例

在构建数仓时,经常会用到flume接收日志数据,通常涉及到的组件为kafka,hdfs等。下面以一个flume接收指定topic数据,并存入hdfs的案例,大致了解下flume相关使用规则。
原创
发布博客 2024.01.22 ·
1284 阅读 ·
32 点赞 ·
0 评论 ·
17 收藏

redis中bitmap应用

redis中bitmap 适用场景
原创
发布博客 2024.01.05 ·
915 阅读 ·
14 点赞 ·
1 评论 ·
9 收藏
加载更多