自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 资源 (1)
  • 问答 (3)
  • 收藏
  • 关注

原创 决策树的优缺点

3. 决策树的学习是基于贪婪算法,它靠优化局部最优(每个节点的最优)来试图达到整体的最优,但这种做法 不能保证返回全局最优决策树。修剪,设置叶节点所 需的最小样本数或设置树的最大深度等机制是避免此问题所必需的,而这些参数的整合和调整对初学者来说 会比较晦涩。2. 需要很少的数据准备。3. 使用树的成本(比如说,在预测数据的时候)是用于训练树的数据点的数量的对数,相比于其他算法,这是 一个很低的成本。2. 决策树可能不稳定,数据中微小的变化可能导致生成完全不同的树,这个问题需要通过集成算法来解决。

2023-10-28 15:21:54 937

原创 数据建模之ODS层命名规范及质量规范

命名规范表命名规范表命名规则:{层次}{源系统表名}{保留位/delta与否}。 增量数据:ods_{库名}_{表名}_{id}。 全量数据:ods_{库名}_{表名}。 ODS ETL过程的临时表:tmp_{临时表所在过程的输出表}_{从0开始的序号}。 按小时同步的增量表:ods_{库名}_{表名}_{ih}。 按小时同步的全量表:ods_{库名}_{表名}_{hh}。 ps:如果库名可能重复,可使用编码来代替库名字段命名规范 字段默认使用源系统的字段名。 字段名与.

2021-08-11 17:18:06 1480

原创 hive问题总结

1. could only be written to 0 of the 1 minReplication nodes. There are 14 datanode(s) running and no node(s) are excluded in this operation表象是磁盘不够、网络不稳定,是yarn的jar包副本为10,在ambari中修改副本为2,问题解决2. hive使用decimal的时候会出现Error evaluating _col0,可以改成double3.

2021-07-15 11:40:33 2055 1

原创 Flink问题总结

**flink问题**:FlinkException: Failed to validate any of the configured directories to moniflink1.9关联hadoop配置需要上传flink-shaded-hadoop-3-uber-3.1.1.7.0.3.0-79-7.0.jar包到/opt/cloudera/parcels/FLINK-1.9.0-csa1.0.0.0-cdh6.3.0/lib/flink/lib,否则安装不上**flink问题**:出现

2021-07-15 11:31:31 525

原创 MPP分析性数据库之Doris

#### Doris介绍Apache Doris是一个现代化的MPP分析性数据库产品。仅需要亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris可以满足多种数据分析需求,例如固定历史报表,实时数据分析。#### 分区Doris支持单分区和复合分区两种建表方式。在复合分区中:第一级称为Partition,即分区。用户指定某一维度列做为分区列(当前只支持整型和时间类型的列),并指定每个分区的取值范围。第二级称为Distribution,即分桶。用户可以指定一个或多个维度列

2021-07-15 10:57:34 1588

原创 实时计算之Flink CDC

#### 什么是CDCCDC是Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。#### CDC的种类CDC主要分为基于查询和基于Binlog两种方式,我们主要了解一下这两种之间的区别:||基于查询的CDC |基于Binlog的CDC||--|--|--||开源产品| Sqoop、Kafka JDBC Source...

2021-07-15 10:49:15 826

原创 flink实时数仓(一)之数据采集

#### 1.1 普通实时计算与实时数仓比较普通的实时计算优先考虑时效性,所以从数据源采集经过实时计算直接得到结果。如此做时效性更好,但是弊端是由于计算过程中的中间结果没有沉淀下来,所以当面对大量实时需求的时候,计算的复用性较差,开发成本随着需求增加直线上升。实时数仓基于一定的数据仓库理念,对数据处理流程进行规划、分层,目的是提高数据的复用性。![在这里插入图片描述](https://img-blog.csdnimg.cn/20210304222410187.png?x-oss-process...

2021-07-13 16:50:35 680

原创 构建数据仓库(一)

### 写在前面**数据仓库**(Data Warehouse)是一个**面向主题**的(Subject Oriented)、**集成**的(Integrated)、**相对稳定**的(Non-Volatile)、**反映历史变化**(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。近年来,随着大数据的应用不断深入,构建企业级数据仓库成为了企业进行**精细化运营**的一种趋势。从管理者的视角来看,数据仓库是赋能业务并辅助决策的一种工具,从开发者的

2021-07-13 16:49:51 167 1

原创 数据倾斜(一)之产生原因

#### 数据倾斜产生原因概述我们以Spark和Hive的使用场景为例。他们在做数据运算的时候会涉及到,count distinct、group by、join on等操作,这些都会触发Shuffle动作。一旦触发Shuffle,所有相同key的值就会被拉到一个或几个Reducer节点上,容易发生单点计算问题,导致数据倾斜。一般来说,数据倾斜原因有以下几方面:key分布不均匀业务数据本身的特性建表时考虑不周某些SQL语句本身就有数据倾斜Shuffle与数据倾斜Hadoop和Spark在Sh

2021-07-13 16:48:49 290

原创 hive的explain命令

显示抽象语法树```sqlEXPLAIN SELECT * from dby_pro.test1;```## explain该命令可以返回hive的查询执行计划。不需要执行查询。查询计划包含三个部分,1.ASTAbstract syntax tree (AST).抽象语法树。通过ANTLR类库生成。2.Stage dependencies:阶段依赖。用来执行查询的依赖列表。3.Stage plans阶段计划。## 实例在 hive cli 中输入以下命令(hive 2.3.7

2021-07-13 16:41:33 364

原创 DS调试问题总结

DS调度框架问题1. java.nio.file.NoSuchFileException: /tmp/dolphinscheduler/exec/process/4/3912/2533/6642/3912_2533_6642_node.sh权限问题,租户对应的操作/tmp/dolphinscheduler/exec/process/4/3912/2533/6642目录的用户不一致2. 任务一直在运行Ambari默认内存是8G,导致少量任务使用完了所有的yarn内存,其他任务...

2020-12-09 16:24:14 3609

原创 Hadoop 3.x 和2.x主要区别

最低Java版本从7升级到8 引入纠删码(Erasure Coding)主要解决数据量大到一定程度磁盘空间存储能力不足的问题.HDFS中的默认3副本方案在存储空间中具有200%的额外开销。但是,对于I/O活动相对较少冷数据集,在正常操作期间很少访问其他块副本,但仍然会消耗与第一个副本相同的资源量。纠删码能勾在不到50%数据冗余的情况下提供和3副本相同的容错能力,因此,使用纠删码作为副本机制的改进是自然而然,也是未来的趋势.重写了Shell脚本重写了Shell脚本,修改了之前版本长期存在的一

2020-08-31 00:39:45 3248

原创 sqoop导入mysql的坑

Caused by: java.sql.SQLException: Incorrect string value: '\xF0\x9F\x98\x82 \xF0...' for column 'emp_nickname' at row 15 at com.mysql.jdbc.SQLError.createSQLException(SQLError.java:965) at com.mysql.jdbc.MysqlIO.checkErrorPacket(MysqlIO.java:3976)...

2020-08-28 16:26:06 393

原创 基尼系数的手工计算

基尼系数通常衡量一个国家或地区居民收入差距的常用指标。同样基尼系数也可以衡量影响因素差距的目标。基尼系数衡量一个某些因素差距的常用指标。基尼系数介于0-1之间,基尼系数越大,表示不平等程度越高。第一步:计算出差值、影响程度、前期值占比、斜率、环比波幅 差值=7月份的值-6月份的值 影响程度=某个差值/差值的总和 前期值占比=6月份的值/6月份的总和 斜率=影响程度/前期值占比 环比波幅=差值/6月份的值 2020...

2020-08-27 11:11:26 1523

原创 pyspark找不到库,No model named

已经通过pip install 安装库了,但是运行pyspark还是找不到第一步:找到安装库的位置,比如我的是/usr/lib/python2.6/site-packages,将需要用的库打成zip包第二步:sc.addPyFile添加zip文件第三步:命令使用--py-files引用zip文件第四步:运行成功...

2019-11-28 18:09:47 1329

原创 糖尿病病情预测_线性回归_最小平方回归

import matplotlib.pyplot as pltimport numpy as npfrom sklearn import datasets, linear_modelfrom sklearn.metrics import mean_squared_error, r2_score#diabetes 是一个关于糖尿病的数据集, 该数据集包括442个病人的生理数据及一年以...

2019-10-31 14:55:52 1585

原创 Logstash的介绍、原理、优缺点、使用、持久化到磁盘、性能测试

一、ELK介绍对于日志来说,最常见的需求就是收集、存储、查询、展示,开源社区正好有相对应的开源项目:logstash(收集)、elasticsearch(存储+搜索)、kibana(展示),我们将这三个组合起来的技术称之为ELKStack,所以说ELKStack指的是Elasticsearch、Logstash、Kibana技术栈的结合。二、Logstash简介Logstash 是一款...

2018-08-24 17:37:20 29319 4

原创 Elasticsearch如何备份到HDFS

es备份到hdfs简介elasticsearch副本提供了高可靠性;它可以保证节点丢失而不会中断服务,但是副本不能做到容灾备份,所以需要把elasticsearch的数据被分到hdfs中。测试环境elasticsearch 6.3.2Hadoop 2.9.1操作步骤 安装repository-hdfs 进入ES的目录,执行命令:bin/elasticsearch...

2018-08-15 15:50:15 1851 1

转载 hadoop2.x常用端口及定义方法

端口Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper:组件节点默认端口配置用途说明HDFSDataNode50010dfs.datanode...

2018-03-19 23:32:05 180

原创 linux复习一

Linux复习一Linux内核最初只是由芬兰人林纳斯·托瓦兹(Linus Torvalds)在赫尔辛基大学上学时出于个人爱好而编写的。文件目录结构/bin:是Binary的缩写,这个目录存放着系统必备执行命令。/boot:这里存放的是启动Linux时使用的一些核心文件,包括一些连接文件以及镜像文件,自己的安装别放这里。/dev:Device(设备)的缩写,该目录下存

2018-01-29 23:35:43 228

原创 北漂初期的感想

刚开始找工作的时候,随随便便在车上都是呆两个小时,一次次的面试,一次次的失败,让我越来越失落,想退缩,但生活需要收入,没有选择,只有继续面试。安卓行业慢慢的趋于饱和,不像后台一样好找工作,薪资要多了公司不要你,要少了公司可能会觉得你能力不够,智联、拉钩、前程无忧、BOSS,能用的都用了,每天更新的招聘信息,都投了一遍,就这样,一天最多只收到三份面试邀请,有些时候投的比较晚,第二天没有安排面试,

2016-10-22 00:17:49 437

转载 一年轻女董事长对同龄人的忠告:不想穷的要看看

1、记住,平均每天看电视超过三个小时以上的,一定都是那些月收入不超过两千元的,如果你想要月收入超过两千,请不要把时间浪费在电视上。同样的道理,那些平均每天玩网络游戏或聊天超过三个小时以上的,也都是那些月收入不超过两千的。    2、因为穷人很多,并且穷人没有钱,所以,他们才会在网络上聊天抱怨,消磨时间。你有见过哪个企业老总或主管经理有事没事经常在QQ群里闲聊的?    3、这个世界

2016-10-05 22:52:28 343

转载 为IT程序员量身定制的12个目标——很经典

对程序员们来说挑战自我非常重要,要么不断创新,要么技术停滞不前。新年伊始,我整理了12个月的目标,每个目标都是对技术或个人能力的挑战,而且可以年复一年循环使用。01. 变得有耐心02. 保持健康03. 拥抱变化带来的不适应04. 学习一门新的编程语言05. 自动化06. 学习更多数学知识07. 关注安全08. 备份你的数据09

2016-10-05 22:19:03 267

转载 一个技术人员35岁之前要做的10件事

第一,学会本行业所需要的一切知识并有所发展。已故零件大王布鲁丹在他35岁时,已经成为零件行业的领袖,并且组建了年收入达千万美元的海湾与西部工业公司。每个人在年轻时都可能有过彻夜不眠、刻苦攻读,这在20岁甚或30岁都没有问题,但到了35岁,就不应该再为学习基本技能而大伤脑筋了。35岁之前是一个人从事原始积累的阶段,35岁之后就应该勃发了。  第二,养成个人风格。在35岁以前,找出你所喜欢的,不论

2016-10-05 22:15:52 663

转载 高效程序员的40个好习惯和行为方式

每一个好的习惯,开头都会相应有一个唱反调的句子哦。1 做事“出了问题,第一重要的是确定元凶,找到那个人!一旦证实了是他的错误,就可以保证这样的问题永远也不会再发生了。”指责不会修复bug,把矛头对准问题的解决办法,而不是人。这是真正有用处的正面效应。也许你不相信,但确实有些人常常不把解决问题放在最高优先级上。也许你也没有。先自我反省一下,当有问题出现时,“第一”反应

2016-10-05 20:22:04 256

企业级大数据项目之数据仓库.docx

当前,所有应用到大数据的公司都需要建设企业数据仓库,以服务于数据分析和为企业决策、产品优化、产品运营等提供稳定可靠的数据支持,因此,数据仓库的建设在公司数据的E(抽取)、T(转化)、L(加载)流程中起到至关重要的地位。 本项目将数仓分为三层,分别是ODS层(贴源层)、DW层(数仓层)和APP层(应用层),其中DW层中包含事实层、维度层、宽表层,为了达到拿空间换时间的目的,由事实层中的事实表和维度层的维度表关联形成宽表层。

2019-07-22

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除