勇者1108
码龄12年
关注
提问 私信
  • 博客:64,678
    社区:1,064
    问答:4,625
    70,367
    总访问量
  • 23
    原创
  • 68,080
    排名
  • 57
    粉丝
  • 0
    铁粉

个人简介:多实践

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2013-05-18
博客简介:

u010739163的博客

查看详细资料
  • 原力等级
    当前等级
    1
    当前总分
    78
    当月
    0
个人成就
  • 获得83次点赞
  • 内容获得8次评论
  • 获得158次收藏
创作历程
  • 3篇
    2024年
  • 1篇
    2023年
  • 9篇
    2021年
  • 4篇
    2020年
  • 2篇
    2019年
  • 4篇
    2018年
  • 5篇
    2016年
成就勋章
TA的专栏
  • 数据仓库
    1篇
  • flink
    3篇
  • mpp
    1篇
  • 机器学习
    1篇
  • linux
    2篇
  • hadoop
    2篇
  • hbase
  • spark
    1篇
  • kafka
  • hive
    5篇
兴趣领域 设置
  • 大数据
    sparkflink
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Flink SQL+Hudi数据入湖与分析实践

数据湖构建(Hudi)可以结合实时计算Flink版,以及Flink CDC相关技术,实现灵活定制化的数据入湖。并利用DLF统一元数据管理、权限管理等能力,实现数据湖多引擎分析、数据湖管理等功能。本文为您介绍Flink+DLF数据湖方案具体步骤。
原创
发布博客 2024.10.18 ·
599 阅读 ·
2 点赞 ·
0 评论 ·
2 收藏

数据治理(2)-数据标准

创建完成命名词典后,您可以在数仓规划的各层的检查器配置中。数据域、业务过程与业务分类的规划和创建。检查数仓中的表名、字段名等是否符合数仓分层的命名规范。
原创
发布博客 2024.10.17 ·
385 阅读 ·
5 点赞 ·
0 评论 ·
7 收藏

数据治理(1)-数据规划

数仓规划进行数据建模时,需要进行数据分层、业务分类、主题域和业务过程设计。数据分层您可以结合业务场景、数据场景综合考虑设计数仓的数据分层,业界通用的五层数仓分层:数据引入层 ODS(Operational Data Store)明细数据层 DWD(Data Warehouse Detail)汇总数据层 DWS(Data Warehouse Summary)应用数据层 ADS(Application Data Service)公共维度层 DIM(Dimension)
原创
发布博客 2024.10.17 ·
1309 阅读 ·
30 点赞 ·
0 评论 ·
12 收藏

决策树的优缺点

3. 决策树的学习是基于贪婪算法,它靠优化局部最优(每个节点的最优)来试图达到整体的最优,但这种做法 不能保证返回全局最优决策树。修剪,设置叶节点所 需的最小样本数或设置树的最大深度等机制是避免此问题所必需的,而这些参数的整合和调整对初学者来说 会比较晦涩。2. 需要很少的数据准备。3. 使用树的成本(比如说,在预测数据的时候)是用于训练树的数据点的数量的对数,相比于其他算法,这是 一个很低的成本。2. 决策树可能不稳定,数据中微小的变化可能导致生成完全不同的树,这个问题需要通过集成算法来解决。
原创
发布博客 2023.10.28 ·
1080 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据建模之ODS层命名规范及质量规范

命名规范表命名规范表命名规则:{层次}{源系统表名}{保留位/delta与否}。 增量数据:ods_{库名}_{表名}_{id}。 全量数据:ods_{库名}_{表名}。 ODS ETL过程的临时表:tmp_{临时表所在过程的输出表}_{从0开始的序号}。 按小时同步的增量表:ods_{库名}_{表名}_{ih}。 按小时同步的全量表:ods_{库名}_{表名}_{hh}。 ps:如果库名可能重复,可使用编码来代替库名字段命名规范 字段默认使用源系统的字段名。 字段名与.
原创
发布博客 2021.08.11 ·
1709 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏

hive问题总结

1. could only be written to 0 of the 1 minReplication nodes. There are 14 datanode(s) running and no node(s) are excluded in this operation表象是磁盘不够、网络不稳定,是yarn的jar包副本为10,在ambari中修改副本为2,问题解决2. hive使用decimal的时候会出现Error evaluating _col0,可以改成double3.
原创
发布博客 2021.07.15 ·
2273 阅读 ·
3 点赞 ·
1 评论 ·
2 收藏

Flink问题总结

**flink问题**:FlinkException: Failed to validate any of the configured directories to moniflink1.9关联hadoop配置需要上传flink-shaded-hadoop-3-uber-3.1.1.7.0.3.0-79-7.0.jar包到/opt/cloudera/parcels/FLINK-1.9.0-csa1.0.0.0-cdh6.3.0/lib/flink/lib,否则安装不上**flink问题**:出现
原创
发布博客 2021.07.15 ·
582 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MPP分析性数据库之Doris

#### Doris介绍Apache Doris是一个现代化的MPP分析性数据库产品。仅需要亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris可以满足多种数据分析需求,例如固定历史报表,实时数据分析。#### 分区Doris支持单分区和复合分区两种建表方式。在复合分区中:第一级称为Partition,即分区。用户指定某一维度列做为分区列(当前只支持整型和时间类型的列),并指定每个分区的取值范围。第二级称为Distribution,即分桶。用户可以指定一个或多个维度列
原创
发布博客 2021.07.15 ·
1691 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

实时计算之Flink CDC

#### 什么是CDCCDC是Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。#### CDC的种类CDC主要分为基于查询和基于Binlog两种方式,我们主要了解一下这两种之间的区别:||基于查询的CDC |基于Binlog的CDC||--|--|--||开源产品| Sqoop、Kafka JDBC Source...
原创
发布博客 2021.07.15 ·
884 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

flink实时数仓(一)之数据采集

#### 1.1 普通实时计算与实时数仓比较普通的实时计算优先考虑时效性,所以从数据源采集经过实时计算直接得到结果。如此做时效性更好,但是弊端是由于计算过程中的中间结果没有沉淀下来,所以当面对大量实时需求的时候,计算的复用性较差,开发成本随着需求增加直线上升。实时数仓基于一定的数据仓库理念,对数据处理流程进行规划、分层,目的是提高数据的复用性。![在这里插入图片描述](https://img-blog.csdnimg.cn/20210304222410187.png?x-oss-process...
原创
发布博客 2021.07.13 ·
740 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

构建数据仓库(一)

### 写在前面**数据仓库**(Data Warehouse)是一个**面向主题**的(Subject Oriented)、**集成**的(Integrated)、**相对稳定**的(Non-Volatile)、**反映历史变化**(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。近年来,随着大数据的应用不断深入,构建企业级数据仓库成为了企业进行**精细化运营**的一种趋势。从管理者的视角来看,数据仓库是赋能业务并辅助决策的一种工具,从开发者的
原创
发布博客 2021.07.13 ·
218 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

数据倾斜(一)之产生原因

#### 数据倾斜产生原因概述我们以Spark和Hive的使用场景为例。他们在做数据运算的时候会涉及到,count distinct、group by、join on等操作,这些都会触发Shuffle动作。一旦触发Shuffle,所有相同key的值就会被拉到一个或几个Reducer节点上,容易发生单点计算问题,导致数据倾斜。一般来说,数据倾斜原因有以下几方面:key分布不均匀业务数据本身的特性建表时考虑不周某些SQL语句本身就有数据倾斜Shuffle与数据倾斜Hadoop和Spark在Sh
原创
发布博客 2021.07.13 ·
322 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive的explain命令

显示抽象语法树```sqlEXPLAIN SELECT * from dby_pro.test1;```## explain该命令可以返回hive的查询执行计划。不需要执行查询。查询计划包含三个部分,1.ASTAbstract syntax tree (AST).抽象语法树。通过ANTLR类库生成。2.Stage dependencies:阶段依赖。用来执行查询的依赖列表。3.Stage plans阶段计划。## 实例在 hive cli 中输入以下命令(hive 2.3.7
原创
发布博客 2021.07.13 ·
407 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

DS调试问题总结

DS调度框架问题1. java.nio.file.NoSuchFileException: /tmp/dolphinscheduler/exec/process/4/3912/2533/6642/3912_2533_6642_node.sh权限问题,租户对应的操作/tmp/dolphinscheduler/exec/process/4/3912/2533/6642目录的用户不一致2. 任务一直在运行Ambari默认内存是8G,导致少量任务使用完了所有的yarn内存,其他任务...
原创
发布博客 2020.12.09 ·
3940 阅读 ·
6 点赞 ·
0 评论 ·
10 收藏

Hadoop 3.x 和2.x主要区别

最低Java版本从7升级到8 引入纠删码(Erasure Coding)主要解决数据量大到一定程度磁盘空间存储能力不足的问题.HDFS中的默认3副本方案在存储空间中具有200%的额外开销。但是,对于I/O活动相对较少冷数据集,在正常操作期间很少访问其他块副本,但仍然会消耗与第一个副本相同的资源量。纠删码能勾在不到50%数据冗余的情况下提供和3副本相同的容错能力,因此,使用纠删码作为副本机制的改进是自然而然,也是未来的趋势.重写了Shell脚本重写了Shell脚本,修改了之前版本长期存在的一
原创
发布博客 2020.08.31 ·
3612 阅读 ·
6 点赞 ·
0 评论 ·
8 收藏

sqoop导入mysql的坑

Caused by: java.sql.SQLException: Incorrect string value: '\xF0\x9F\x98\x82 \xF0...' for column 'emp_nickname' at row 15 at com.mysql.jdbc.SQLError.createSQLException(SQLError.java:965) at com.mysql.jdbc.MysqlIO.checkErrorPacket(MysqlIO.java:3976)...
原创
发布博客 2020.08.28 ·
424 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

基尼系数的手工计算

基尼系数通常衡量一个国家或地区居民收入差距的常用指标。同样基尼系数也可以衡量影响因素差距的目标。基尼系数衡量一个某些因素差距的常用指标。基尼系数介于0-1之间,基尼系数越大,表示不平等程度越高。第一步:计算出差值、影响程度、前期值占比、斜率、环比波幅 差值=7月份的值-6月份的值 影响程度=某个差值/差值的总和 前期值占比=6月份的值/6月份的总和 斜率=影响程度/前期值占比 环比波幅=差值/6月份的值 2020...
原创
发布博客 2020.08.27 ·
1647 阅读 ·
0 点赞 ·
1 评论 ·
3 收藏

pyspark找不到库,No model named

已经通过pip install 安装库了,但是运行pyspark还是找不到第一步:找到安装库的位置,比如我的是/usr/lib/python2.6/site-packages,将需要用的库打成zip包第二步:sc.addPyFile添加zip文件第三步:命令使用--py-files引用zip文件第四步:运行成功...
原创
发布博客 2019.11.28 ·
1410 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

糖尿病病情预测_线性回归_最小平方回归

import matplotlib.pyplot as pltimport numpy as npfrom sklearn import datasets, linear_modelfrom sklearn.metrics import mean_squared_error, r2_score#diabetes 是一个关于糖尿病的数据集, 该数据集包括442个病人的生理数据及一年以...
原创
发布博客 2019.10.31 ·
1637 阅读 ·
0 点赞 ·
0 评论 ·
11 收藏

hive udf报错SemanticException [Error 10014]

发布问题 2019.07.25 ·
1 回答
加载更多