勇者1108-CSDN博客

原创决策树的优缺点

3. 决策树的学习是基于贪婪算法，它靠优化局部最优（每个节点的最优）来试图达到整体的最优，但这种做法不能保证返回全局最优决策树。修剪，设置叶节点所需的最小样本数或设置树的最大深度等机制是避免此问题所必需的，而这些参数的整合和调整对初学者来说会比较晦涩。2. 需要很少的数据准备。3. 使用树的成本（比如说，在预测数据的时候）是用于训练树的数据点的数量的对数，相比于其他算法，这是一个很低的成本。2. 决策树可能不稳定，数据中微小的变化可能导致生成完全不同的树，这个问题需要通过集成算法来解决。

2023-10-28 15:21:54 972

原创数据建模之ODS层命名规范及质量规范

命名规范表命名规范表命名规则：{层次}{源系统表名}{保留位/delta与否}。增量数据：ods_{库名}_{表名}_{id}。全量数据：ods_{库名}_{表名}。 ODS ETL过程的临时表：tmp_{临时表所在过程的输出表}_{从0开始的序号}。按小时同步的增量表：ods_{库名}_{表名}_{ih}。按小时同步的全量表：ods_{库名}_{表名}_{hh}。 ps：如果库名可能重复，可使用编码来代替库名字段命名规范字段默认使用源系统的字段名。字段名与.

2021-08-11 17:18:06 1574

原创 hive问题总结

1. could only be written to 0 of the 1 minReplication nodes. There are 14 datanode(s) running and no node(s) are excluded in this operation表象是磁盘不够、网络不稳定，是yarn的jar包副本为10，在ambari中修改副本为2,问题解决2. hive使用decimal的时候会出现Error evaluating _col0，可以改成double3.

2021-07-15 11:40:33 2141 1

原创 Flink问题总结

**flink问题**：FlinkException: Failed to validate any of the configured directories to moniflink1.9关联hadoop配置需要上传flink-shaded-hadoop-3-uber-3.1.1.7.0.3.0-79-7.0.jar包到/opt/cloudera/parcels/FLINK-1.9.0-csa1.0.0.0-cdh6.3.0/lib/flink/lib，否则安装不上**flink问题**:出现

2021-07-15 11:31:31 543

原创 MPP分析性数据库之Doris

#### Doris介绍Apache Doris是一个现代化的MPP分析性数据库产品。仅需要亚秒级响应时间即可获得查询结果，有效地支持实时数据分析。Apache Doris可以满足多种数据分析需求，例如固定历史报表，实时数据分析。#### 分区Doris支持单分区和复合分区两种建表方式。在复合分区中：第一级称为Partition,即分区。用户指定某一维度列做为分区列（当前只支持整型和时间类型的列），并指定每个分区的取值范围。第二级称为Distribution,即分桶。用户可以指定一个或多个维度列

2021-07-15 10:57:34 1633

原创实时计算之Flink CDC

#### 什么是CDCCDC是Change Data Capture(变更数据获取)的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入、更新以及删除等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。#### CDC的种类CDC主要分为基于查询和基于Binlog两种方式，我们主要了解一下这两种之间的区别：||基于查询的CDC |基于Binlog的CDC||--|--|--||开源产品| Sqoop、Kafka JDBC Source...

2021-07-15 10:49:15 846

原创 flink实时数仓(一)之数据采集

#### 1.1 普通实时计算与实时数仓比较普通的实时计算优先考虑时效性，所以从数据源采集经过实时计算直接得到结果。如此做时效性更好，但是弊端是由于计算过程中的中间结果没有沉淀下来，所以当面对大量实时需求的时候，计算的复用性较差，开发成本随着需求增加直线上升。实时数仓基于一定的数据仓库理念，对数据处理流程进行规划、分层，目的是提高数据的复用性。![在这里插入图片描述](https://img-blog.csdnimg.cn/20210304222410187.png?x-oss-process...

2021-07-13 16:50:35 703

原创构建数据仓库(一)

### 写在前面**数据仓库**（Data Warehouse）是一个**面向主题**的（Subject Oriented）、**集成**的（Integrated）、**相对稳定**的（Non-Volatile）、**反映历史变化**（Time Variant）的数据集合，用于支持管理决策(Decision Making Support)。近年来，随着大数据的应用不断深入，构建企业级数据仓库成为了企业进行**精细化运营**的一种趋势。从管理者的视角来看，数据仓库是赋能业务并辅助决策的一种工具，从开发者的

2021-07-13 16:49:51 196 1

原创数据倾斜(一)之产生原因

#### 数据倾斜产生原因概述我们以Spark和Hive的使用场景为例。他们在做数据运算的时候会涉及到，count distinct、group by、join on等操作，这些都会触发Shuffle动作。一旦触发Shuffle，所有相同key的值就会被拉到一个或几个Reducer节点上，容易发生单点计算问题，导致数据倾斜。一般来说，数据倾斜原因有以下几方面：key分布不均匀业务数据本身的特性建表时考虑不周某些SQL语句本身就有数据倾斜Shuffle与数据倾斜Hadoop和Spark在Sh

2021-07-13 16:48:49 304

原创 hive的explain命令

显示抽象语法树```sqlEXPLAIN SELECT * from dby_pro.test1;```## explain该命令可以返回hive的查询执行计划。不需要执行查询。查询计划包含三个部分,1.ASTAbstract syntax tree (AST).抽象语法树。通过ANTLR类库生成。2.Stage dependencies:阶段依赖。用来执行查询的依赖列表。3.Stage plans阶段计划。## 实例在 hive cli 中输入以下命令(hive 2.3.7

2021-07-13 16:41:33 371

原创 DS调试问题总结

DS调度框架问题1. java.nio.file.NoSuchFileException: /tmp/dolphinscheduler/exec/process/4/3912/2533/6642/3912_2533_6642_node.sh权限问题，租户对应的操作/tmp/dolphinscheduler/exec/process/4/3912/2533/6642目录的用户不一致2. 任务一直在运行Ambari默认内存是8G，导致少量任务使用完了所有的yarn内存，其他任务...

2020-12-09 16:24:14 3663

原创 Hadoop 3.x 和2.x主要区别

最低Java版本从7升级到8 引入纠删码(Erasure Coding)主要解决数据量大到一定程度磁盘空间存储能力不足的问题.HDFS中的默认3副本方案在存储空间中具有200%的额外开销。但是，对于I/O活动相对较少冷数据集，在正常操作期间很少访问其他块副本，但仍然会消耗与第一个副本相同的资源量。纠删码能勾在不到50%数据冗余的情况下提供和3副本相同的容错能力，因此，使用纠删码作为副本机制的改进是自然而然，也是未来的趋势.重写了Shell脚本重写了Shell脚本，修改了之前版本长期存在的一

2020-08-31 00:39:45 3285

原创 sqoop导入mysql的坑

Caused by: java.sql.SQLException: Incorrect string value: '\xF0\x9F\x98\x82 \xF0...' for column 'emp_nickname' at row 15 at com.mysql.jdbc.SQLError.createSQLException(SQLError.java:965) at com.mysql.jdbc.MysqlIO.checkErrorPacket(MysqlIO.java:3976)...

2020-08-28 16:26:06 400

原创基尼系数的手工计算

基尼系数通常衡量一个国家或地区居民收入差距的常用指标。同样基尼系数也可以衡量影响因素差距的目标。基尼系数衡量一个某些因素差距的常用指标。基尼系数介于0-1之间，基尼系数越大，表示不平等程度越高。第一步:计算出差值、影响程度、前期值占比、斜率、环比波幅差值=7月份的值-6月份的值影响程度=某个差值/差值的总和前期值占比=6月份的值/6月份的总和斜率=影响程度/前期值占比环比波幅=差值/6月份的值 2020...

2020-08-27 11:11:26 1577 1

原创 pyspark找不到库，No model named

已经通过pip install 安装库了，但是运行pyspark还是找不到第一步:找到安装库的位置，比如我的是/usr/lib/python2.6/site-packages，将需要用的库打成zip包第二步:sc.addPyFile添加zip文件第三步:命令使用--py-files引用zip文件第四步:运行成功...

2019-11-28 18:09:47 1348

原创糖尿病病情预测_线性回归_最小平方回归

import matplotlib.pyplot as pltimport numpy as npfrom sklearn import datasets, linear_modelfrom sklearn.metrics import mean_squared_error, r2_score#diabetes 是一个关于糖尿病的数据集，该数据集包括442个病人的生理数据及一年以...

2019-10-31 14:55:52 1599

原创 Logstash的介绍、原理、优缺点、使用、持久化到磁盘、性能测试

一、ELK介绍对于日志来说，最常见的需求就是收集、存储、查询、展示，开源社区正好有相对应的开源项目：logstash（收集）、elasticsearch（存储+搜索）、kibana（展示），我们将这三个组合起来的技术称之为ELKStack，所以说ELKStack指的是Elasticsearch、Logstash、Kibana技术栈的结合。二、Logstash简介Logstash 是一款...

2018-08-24 17:37:20 29810 4

原创 Elasticsearch如何备份到HDFS

es备份到hdfs简介elasticsearch副本提供了高可靠性；它可以保证节点丢失而不会中断服务，但是副本不能做到容灾备份，所以需要把elasticsearch的数据被分到hdfs中。测试环境elasticsearch 6.3.2Hadoop 2.9.1操作步骤安装repository-hdfs 进入ES的目录，执行命令：bin/elasticsearch...

2018-08-15 15:50:15 1869 1

转载 hadoop2.x常用端口及定义方法

端口Hadoop集群的各部分一般都会使用到多个端口，有些是daemon之间进行交互之用，有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多，完全记不住哪个端口对应哪个应用，特收集记录如此，以便查询。这里包含我们使用到的组件：HDFS, YARN, HBase, Hive, ZooKeeper:组件节点默认端口配置用途说明HDFSDataNode50010dfs.datanode...

2018-03-19 23:32:05 186

原创 linux复习一

Linux复习一Linux内核最初只是由芬兰人林纳斯·托瓦兹（Linus Torvalds）在赫尔辛基大学上学时出于个人爱好而编写的。文件目录结构/bin：是Binary的缩写，这个目录存放着系统必备执行命令。/boot：这里存放的是启动Linux时使用的一些核心文件，包括一些连接文件以及镜像文件，自己的安装别放这里。/dev：Device(设备)的缩写，该目录下存

2018-01-29 23:35:43 239

原创北漂初期的感想

刚开始找工作的时候，随随便便在车上都是呆两个小时，一次次的面试，一次次的失败，让我越来越失落，想退缩，但生活需要收入，没有选择，只有继续面试。安卓行业慢慢的趋于饱和，不像后台一样好找工作，薪资要多了公司不要你，要少了公司可能会觉得你能力不够，智联、拉钩、前程无忧、BOSS，能用的都用了，每天更新的招聘信息，都投了一遍，就这样，一天最多只收到三份面试邀请，有些时候投的比较晚，第二天没有安排面试，

2016-10-22 00:17:49 444

转载一年轻女董事长对同龄人的忠告：不想穷的要看看

1、记住，平均每天看电视超过三个小时以上的，一定都是那些月收入不超过两千元的，如果你想要月收入超过两千，请不要把时间浪费在电视上。同样的道理，那些平均每天玩网络游戏或聊天超过三个小时以上的，也都是那些月收入不超过两千的。 2、因为穷人很多，并且穷人没有钱，所以，他们才会在网络上聊天抱怨，消磨时间。你有见过哪个企业老总或主管经理有事没事经常在QQ群里闲聊的？ 3、这个世界

2016-10-05 22:52:28 351

转载为IT程序员量身定制的12个目标——很经典

对程序员们来说挑战自我非常重要，要么不断创新，要么技术停滞不前。新年伊始，我整理了12个月的目标，每个目标都是对技术或个人能力的挑战，而且可以年复一年循环使用。01. 变得有耐心02. 保持健康03. 拥抱变化带来的不适应04. 学习一门新的编程语言05. 自动化06. 学习更多数学知识07. 关注安全08. 备份你的数据09

2016-10-05 22:19:03 280

转载一个技术人员35岁之前要做的10件事

第一，学会本行业所需要的一切知识并有所发展。已故零件大王布鲁丹在他35岁时，已经成为零件行业的领袖，并且组建了年收入达千万美元的海湾与西部工业公司。每个人在年轻时都可能有过彻夜不眠、刻苦攻读，这在20岁甚或30岁都没有问题，但到了35岁，就不应该再为学习基本技能而大伤脑筋了。35岁之前是一个人从事原始积累的阶段，35岁之后就应该勃发了。　　第二，养成个人风格。在35岁以前，找出你所喜欢的，不论

2016-10-05 22:15:52 677

转载高效程序员的40个好习惯和行为方式

每一个好的习惯，开头都会相应有一个唱反调的句子哦。1 做事“出了问题，第一重要的是确定元凶，找到那个人！一旦证实了是他的错误，就可以保证这样的问题永远也不会再发生了。”指责不会修复bug，把矛头对准问题的解决办法，而不是人。这是真正有用处的正面效应。也许你不相信，但确实有些人常常不把解决问题放在最高优先级上。也许你也没有。先自我反省一下，当有问题出现时，“第一”反应

2016-10-05 20:22:04 263

企业级大数据项目之数据仓库.docx

当前，所有应用到大数据的公司都需要建设企业数据仓库，以服务于数据分析和为企业决策、产品优化、产品运营等提供稳定可靠的数据支持，因此，数据仓库的建设在公司数据的E(抽取)、T(转化)、L(加载)流程中起到至关重要的地位。本项目将数仓分为三层，分别是ODS层(贴源层)、DW层(数仓层)和APP层(应用层)，其中DW层中包含事实层、维度层、宽表层，为了达到拿空间换时间的目的，由事实层中的事实表和维度层的维度表关联形成宽表层。

2019-07-22

hive udf报错SemanticException [Error 10014]

2019-07-25

NoClassDefFoundError: org/apache/commons/con

2018-08-10

spark ClassNotFoundException

2018-08-02

TA创建的收藏夹 TA关注的收藏夹

TA关注的人