青月数据-CSDN博客

原创 clickhouse初探

ClickHouse 是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。数据仓库场景的多维数据存储与检索工具，力图解决海量多维度数据的查询性能问题。 300G 的真实数据来做过基准测试： Mysql 耗时 15 min 22.93 sec；Clickhouse 耗时 3.761 sec；TiDB 耗时 10.11 sec 不支持事物。不支持 Update/Delete 操作。支持有限操作系统。现在支持 ubuntu，CentOS 需要自己编译，不过有热心人已经编译好了，

2022-07-07 15:47:39 1664 1

原创评价指标总结

评价指标总结我们需要通过评价指标来判断模型的好坏：一、对于分类结果的评价的评价指标：1、分类准确度：即预测成功的在总数中的占比2、利用混淆矩阵：FN：False Negative,被判定为负样本，但事实上是正样本。FP：False Positive,被判定为正样本，但事实上是负样本。TN：True Negative,被判定为负样本，事实上也是负样本。TP：True Positi......

2022-07-07 15:45:53 1342

原创 SVM算法

SVM算法SVM算法也没有多么神秘。其最核心的思想就是从Input Space向更高维的Feature Space的映射，进行有Margin的线性分类。在线性可分问题中，对于样本点来说，存在一根直线可以将样本点划分，我们称之为Hard Margin SVM；但是事实上，并不是所有情况都是完美的 Soft Margin：有时候包含少量的异常点而导致的数据集不能线性可分的情况，事实上，无...

2020-05-03 21:21:33 416

原创数据降维

数据降维主成分分析方法（PCA），是数据降维算法。将关系紧密的变量变成尽可能少的新变量，使这些新变量是两两不相关的，即用较少的综合指标分别代表存在于各个变量中的各类信息，达到数据降维的效果。所用到的方法就是“映射”：将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。我们要选择的就是让映射后样本间距最大的轴。其过程分为两步：样本归...

2020-04-26 22:08:37 316

原创决策树

初识决策树决策树是一个非参数的决策算法，决策树可以解决分类问题，且天然支持多分类问题。决策树也可以解决回归问题，按照树的路径追踪到叶子结点，最终叶子节点对应一个数值，且回归问题的结果是一个具体的数值，就可以落在叶子结点的所有样本的平均值，作为回归的预测结果。并且决策树具有非常好的可解释性。那么提出一个问题：在构建决策树，进行特征选择划分时，究竟选择哪个特征更好些？这就要求确定选择特征的...

2020-04-19 22:30:47 774

原创应用广泛的二分类算法——逻辑回归

逻辑回归数学思想：对问题划分层次，并利用非线性变换和线性模型的组合，将未知的复杂问题分解为已知的简单问题。逻辑回归介绍：其原理是将样本的特征和样本发生的概率联系起来，即，预测的是样本发生的概率是多少。由于概率是一个数，因此被叫做“逻辑回归”。在回归问题上再多做一步，就可以作为分类算法来使用了。逻辑回归只能解决二分类问题，如果是多分类问题，LR本身是不支持的。总结： ...

2020-04-19 22:27:59 708

原创机器学习重要概念补充

多项式回归对非线性数据进行处理的方法：研究一个因变量与一个或多个自变量间多项式的回归分析方法，称为多项式回归（Polynomial Regression）。完全是使用线性回归的思路，关键在于为数据添加新的特征，而这些新的特征是原有的特征的多项式组合，采用这样的方式就能解决非线性问题。多项式回归是升维，添加了新的特征之后，使得更好地拟合高维数据。关于偏差和方差...

2020-04-05 22:13:54 88

原创关于梯度下降

什么是梯度下降简单地来说，多元函数的导数(derivative)就是梯度(gradient)，分别对每个变量进行微分，然后用逗号分割开，梯度是用括号包括起来，说明梯度其实一个向量，我们说损失函数L的梯度为：我们知道导数就是变化率。梯度是向量，和参数维度一样。总结梯度下降这一目前机器学习、深度学习解决最优化问题的算法中，最核心、应用最广的方法。所谓梯度下降，是一种基于搜索的最优化方法，其作...

2020-03-29 23:36:10 164

原创简单线性回归及最小二乘法

简单线性回归：简单线性回归及最小二乘法的数据推导1、简单线性回归是属于回归(regression)，即label为连续数值型(continuous numerical variable)，所谓简单，是指只有一个样本特征，即只有一个自变量；所谓线性，是指方程是线性的；所谓回归，是指用方程来模拟变量之间是如何关联的。简单线性回归，其思想简单，实现容易（与其背后强大的数学性质相关。同时也是许多强大的...

2020-03-22 23:21:44 298

原创数据预处理与特征工程总结

特征预处理特征预处理是数据预处理过程的重要步骤，是对数据的一个的标准的处理，几乎所有的数据处理过程都会涉及该步骤。数值型特征无量纲化无量纲化使不同规格的数据转换到同一规格。常见的无量纲化方法有标准化和归一化。标准化：标准化的前提是特征值服从正态分布，标准化后，其转换成标准正态分布。归一化 MinMax归一化：区间缩放法利用了边界值信息，将属性缩放到[0,1]区...

2020-03-15 20:55:57 241

原创评价指标总结

评价指标总结我们需要通过评价指标来判断模型的好坏：一、对于分类结果的评价的评价指标：1、分类准确度：即预测成功的在总数中的占比2、利用混淆矩阵： FN：False Negative,被判定为负样本，但事实上是正样本。FP：False Positive,被判定为正样本，但事实上是负样本。TN：True Negative,被判定为负样本，事实上也是负样本。TP：True Positive...

2020-03-15 20:26:59 246

原创 knn算法

什么是knn kNN(k-NearestNeighbor)，也就是k最近邻算法。顾名思义，所谓K最近邻，就是k个最近的邻居的意思。也就是在数据集中，认为每个样本可以用离他最距离近的k个邻居来代表。它是一种常用的监督学习方法，在分类任务中可以采用“投票法”，在回归任务中可以采用“平均法”，以及基于距离远近进行加权平均或加权投票，距离越近的样本权重越大。简单来说就是“近朱者赤近墨者黑”...

2020-03-01 21:06:52 239

原创 scala中的接口——trait

scala中的接口没有接口，采用trait(特征)来代替接口的概念，类似于java中的 interface+abstract class， scala中称为类混入/继承了特质特质 trait– 可以类比java中的接口，但是又和接口非常不一样定义特质 trait xxx{ def m1() def m2(){....}}和java中的接口不同 scala中的特质可...

2019-12-19 10:17:24 464

原创 hive udaf总结

0xx01 概述hive的udaf全称 User-Defined Aggregation Functions。hive有两种udaf，simple and generic.区别如下Simple UDAFs, as the name implies, are rather simple to write, but incur performance penalties because of th...

2019-12-17 16:37:38 891

原创 flink的window理解

概述 window可以将flink处理的无限stream流切分成有限流，进行时间段内数据的计算，它是有限流处理的核心组件。window对流的切分可以是基于时间的（Time Window），也可以是基于数据的（Count Window）。主要的操作如下：注：例子中的kafkaSource是一个DataStream对象keyed windows operator[外链图片转存失败,源站可能...

2019-11-28 18:39:27 564

原创关于Requested row out of range for doMiniBatchMutation on HRegion

1 异常信息如下：019-11-21 11:12:49,078 [http-nio-17374-exec-6] ERROR c.fengjr.report.center.web.mq.receive.ReceiveMQ_1_3_4_8_9_18_19_32_48_Controller - 接受结算MQ异常org.springframework.data.hadoop.hbase.HbaseSy...

2019-11-21 16:45:16 2503 2

原创 flink数据类型和序列化

数据类型总览总体继承关系如下Flink的数据类型这里我们取一种类型分析它的继承关系序列化过程具体的序列化过程时怎么样的呢？通过如图 TypeInfomation的createSerializer方法： /** * Creates a serializer for the type. The serializer may use the ExecutionConfig ...

2019-11-21 09:47:31 379

原创 java异常总结

java异常总结#01 异常概述异常分为两种 checked异常（JVM检查时异常） Runtime异常（运行时异常）#02 异常处理机制使用try…catch捕获异常 try块业务逻辑代码出现异常，系统自动捕获一个异常对象，提交给JVM，即抛出异常 catch块中包含各种异常对象，执行第一个与try块中相匹配的对象所对应的代码块，即捕获异常 finally块中进行...

2019-06-02 23:09:59 185

原创 JDBC典型用法

JDBC典型用法#01 JDBC常用的接口和类DriverManger常用的方法 createConnetionConnection常用的方法创建Statement对象 createStatement prepareStatement prepareCall控制事务的方法Statement常用的方法 executeQuery(String sql) exe...

2019-06-02 23:09:06 220

原创记一次不成功的拉链表

2019-05-10 02:19:37,565 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: Diagnostics report from attempt_1556531708937_6923_r_000000_0: Error: java.la...

2019-05-10 11:40:50 427

原创 java中的容器类

java中的容器数组 collection接口 list接口 ArrayList LinkedList Vector stack set接口 HashSet SortedSet接口 TreeSet map接口 HashMap SoredMap接口 TreeMap HashTable Prop...

2019-04-14 11:43:02 105

转载数据仓库之数据脱敏方法论

数据脱敏对数据敏感程度进行安全级别划分绝密高保密保密可公开敏感数据梳理用户维度手机号码、邮件地址、账号、地址、固定电话号码等信息（此外个人隐私数据相关还有如：种族、政治观点、宗教信仰、基因等）用户终端维度能够可能标识终端的唯一性字段，如设备id。公司角度交易金额、代金卷密码、充值码等确定脱敏处理方法替...

2019-04-13 15:32:45 1664

原创 java中的容器

java中的容器数组 collection接口 list接口 ArrayList LinkedList Vector stack list接口实现类的区别 ArrayList和Vector是基于数组实现的，但是ArrayList是不同步的，即线程不安全，所以效率低，而Vector是同步的，线程安全的，所以效率高 LinkedList基于链表...

2019-04-13 15:26:22 136

原创数据仓库之数据模型

文章脉络 ER模型（关系实体模型）特点全面了解业务业务和数据实施周期非常长对建模人员的能力要求高建模步骤概念模型（高层模型）抽象模型，描述主要的主题以及主题间的关系，用于描述企业的业务总体概况。逻辑模型（中层模型）——在概...

2019-04-03 22:20:52 546

原创写在数据仓库系列之前

接下来的一段时间内会整理总结数据仓库的相关知识，可能暂时只是点，我会通过自己的工作感悟以及读书笔记等逐渐将它们丰满起来。之所以选择数据仓库这个切入点，来进行知识整理，一方面是因为工作确实是以数仓为中心展开的，另一方面也是因为在做数据相关工作的时候，数仓是一个绕不来的话题。无论是简单的数据分析，还是上层的数据挖掘，AI等全部是建立在数仓的基础上的。这里的话，我...

2019-04-03 21:12:46 136

原创数据结构与算法之二叉树

关于二叉树1、二叉树的性质2、概念性的，完全二叉树和满二叉树的区分3、二叉树的遍历分为先序，中序和后序，这个序说的是根节点的位置4。如果给定了先序或者后序任何一个，和中序，要求另一个，那么基本思路就是——找根 (根据前序或者后序找根，根据中序进行辅助找左，右节点)...

2019-03-21 21:58:18 230

原创 SPARK : failure: ``)'' expected but `(' found

问题:当通过sparkSQL执行ROW_NUMBER() OVER（）开窗函数的时候，报了这个错，具体sql如下 select data from (SELECT *, ROW_NUMBER() OVER (partition by id ORDER BY time,data)num FROM operate_test)a where num=1但是报了以下的错误[1.29]...

2019-03-14 20:49:44 3083

原创 hive数据导入出错

今天进行ods层表向dwd层表数据导入的时候报了这个错2019-03-14 10:01:23,403 FATAL [IPC Server handler 7 on 11474] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Task: attempt_1550917126723_7329_m_000006_0 - exited : jav...

2019-03-14 10:14:58 2055

原创 OOZIE之创建shell节点命令

首先创建工作流然后将shell节点的符号拖到指定的区域选中需要的shell脚本文件需要注意的是：1、文件的权限必须具有可执行权限。本例采用了“777”权限。 2、第一个输入框处填包含后缀的文件名，文件部分的输入框要包含调度脚本和被调度脚本的完整文件名（包含路径和后缀），且都具有可执行权限。如果当前shell脚本为sqoop脚本命令，示例脚本如下...

2019-03-06 10:15:30 324

原创 kylin实操入门

先创建一个project 然后选择创建的project 然后点击data Source下的load Hive Table按钮填写需要的hive表的全称（库名.表名），完成后点击Sync按钮就是数据导入然后创建一个新的ModelModel Name只能是英文选择事实表(Fact Table)，可以通过 add lookup T...

2018-11-27 11:41:54 672

原创解决org.apache.sqoop.hive.HiveImport - Loading uploaded data into Hive Intercepting System.exit(1)

在 HUE 的作业设计器中运行sqoop 作业，调用命令：sqoop import --connect jdbc:mysql://localhost:3306/test --username root --password mysql-password --table t1 --hive-import时报错，错误如下： 33782 [main] INFO org.apache.sqoo...

2018-04-04 10:55:11 1246

原创 Cloudera Manager运维之Hbase问题

问题描述：在java客户端，利用写的简易代码进行HBase表格数据的增删改查可以通过，然后安排进行生产测试，这个时候出现问题，RegionServer总是不断自动推退出，即使将它进行重启，也会在重启后立马退出宕掉。问题查找：打开日志，都是INFO级别，很正常这种情况应该是内存原因，然后去看hbase对内存的内置，发现cloudera manager默认的配置是50M，对于简单的增删改查测试，这个内...

2018-03-07 21:26:14 2600

原创 Cloudera Manager 安装遇到的问题

1、Unable toverify database connection在安装hue数据库的时候出现Unable to verify databaseconnection这个问题，现在有两种不同的解决方案，需要根据自己的实际情况来进行解决1、安装mysql-compat-libs包 rpm -ivh mysql-community-libs-compat-5.1.7-1.el6.x86...

2018-03-07 11:30:37 655

原创 Oozie基础入门

前言：因为工作需要用到oozie，但是网上的资料越看越迷茫，经过很大的努力，终于折腾清楚了，这里，做一个总结，帮助后来者更好地进行入门，当然，粗鄙之言，难免疏漏，欢迎交流指正引入：对于我们的工作，可能需要好几个hadoop作业（job）来协作完成，往往一个job的输出会被当做另一个job的输入来使用，这个时候就涉及到了数据流的处理。我...

2018-03-01 15:08:50 36478 2

原创 cloudera manager运维日志 2018.02.27

下午打开cm网页发现问题运行报黄分别查看cm2，cm3，cm4节点磁盘使用情况CM2节点CM3节点CM4节点发现磁盘使用率达到了90%以上，于是对各个文件夹进行排查发现dfs文件系统占用空间很大，于是经过查看发现是因为dn文件夹下的数据过大造成了所以，进入hdfs的web界面，将不需要的文件做了删除注意：这里是测试机，所以直接删除了，如果是生产上的机器，那么最好将数据文件移动到一个新的硬盘上并在原...

2018-02-27 14:55:47 790

原创 cloudera manager运维日志 2018.02.26

登陆上cloudera manager 发现很多报空间不足，手贱就将/tmp目录全部删除了，然后重启server和agent，发现agent可以正常启动，但是server没办法正常启动，查看日志，发现报错2018-02-23 11:13:05,313 ERRORmain:com.cloudera.enterprise.dbutil.DbUtil: InnoDB engine not found. ...

2018-02-26 20:15:11 1491

weixin_39198774的博客

原创 clickhouse初探

原创评价指标总结

原创 SVM算法

原创数据降维

原创决策树

原创应用广泛的二分类算法——逻辑回归

原创机器学习重要概念补充

原创关于梯度下降

原创简单线性回归及最小二乘法

原创数据预处理与特征工程总结

原创评价指标总结

原创 knn算法

原创 scala中的接口——trait

原创 hive udaf总结

原创 flink的window理解

原创关于Requested row out of range for doMiniBatchMutation on HRegion

原创 flink数据类型和序列化

原创 java异常总结

原创 JDBC典型用法

原创记一次不成功的拉链表

原创 java中的容器类

转载数据仓库之数据脱敏方法论

原创 java中的容器

原创数据仓库之数据模型

原创写在数据仓库系列之前

原创数据结构与算法之二叉树

原创 SPARK : failure: ``)'' expected but `(' found

原创 hive数据导入出错

原创 OOZIE之创建shell节点命令

原创 kylin实操入门

原创解决org.apache.sqoop.hive.HiveImport - Loading uploaded data into Hive Intercepting System.exit(1)

原创 Cloudera Manager运维之Hbase问题

原创 Cloudera Manager 安装遇到的问题

原创 Oozie基础入门

原创 cloudera manager运维日志 2018.02.27

原创 cloudera manager运维日志 2018.02.26

ext-2.2.zip （oozie打开web界面所需的js文件）

空空如也