自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 资源 (1)
  • 收藏
  • 关注

原创 clickhouse初探

​ ClickHouse 是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。数据仓库场景的多维数据存储与检索工具,力图解决海量多维度数据的查询性能问题。​ 300G 的真实数据来做过基准测试:​ Mysql 耗时 15 min 22.93 sec;Clickhouse 耗时 3.761 sec;TiDB 耗时 10.11 sec​ 不支持事物。​ 不支持 Update/Delete 操作。​ 支持有限操作系统。现在支持 ubuntu,CentOS 需要自己编译,不过有热心人已经编译好了,

2022-07-07 15:47:39 1664 1

原创 评价指标总结

评价指标总结我们需要通过评价指标来判断模型的好坏:一、对于分类结果的评价的评价指标:1、分类准确度:即预测成功的在总数中的占比2、利用混淆矩阵:FN:False Negative,被判定为负样本,但事实上是正样本。FP:False Positive,被判定为正样本,但事实上是负样本。TN:True Negative,被判定为负样本,事实上也是负样本。TP:True Positi......

2022-07-07 15:45:53 1342

原创 SVM算法​

SVM算法​SVM算法也没有多么神秘。其最核心的思想就是从Input Space向更高维的Feature Space的映射,进行有Margin的线性分类。​ 在线性可分问题中,对于样本点来说,存在一根直线可以将样本点划分,我们称之为Hard Margin SVM;但是事实上,并不是所有情况都是完美的​ Soft Margin:有时候包含少量的异常点而导致的数据集不能线性可分的情况,事实上,无...

2020-05-03 21:21:33 415

原创 数据降维

数据降维主成分分析方法(PCA),是数据降维算法。将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相关的,即用较少的综合指标分别代表存在于各个变量中的各类信息,达到数据降维的效果。所用到的方法就是“映射”:将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。我们要选择的就是让映射后样本间距最大的轴。其过程分为两步:样本归...

2020-04-26 22:08:37 316

原创 决策树

初识决策树​ 决策树是一个非参数的决策算法,决策树可以解决分类问题,且天然支持多分类问题。决策树也可以解决回归问题,按照树的路径追踪到叶子结点,最终叶子节点对应一个数值,且回归问题的结果是一个具体的数值,就可以落在叶子结点的所有样本的平均值,作为回归的预测结果。并且决策树具有非常好的可解释性。那么提出一个问题:在构建决策树,进行特征选择划分时,究竟选择哪个特征更好些?这就要求确定选择特征的...

2020-04-19 22:30:47 774

原创 应用广泛的二分类算法——逻辑回归

逻辑回归数学思想:​ 对问题划分层次,并利用非线性变换和线性模型的组合,将未知的复杂问题分解为已知的简单问题。逻辑回归介绍:​ 其原理是将样本的特征和样本发生的概率联系起来,即,预测的是样本发生的概率是多少。由于概率是一个数,因此被叫做“逻辑回归”。​ 在回归问题上再多做一步,就可以作为分类算法来使用了。逻辑回归只能解决二分类问题,如果是多分类问题,LR本身是不支持的。总结:​ ...

2020-04-19 22:27:59 708

原创 机器学习重要概念补充

多项式回归对非线性数据进行处理的方法: 研究一个因变量与一个或多个自变量间多项式的回归分析方法,称为多项式回归(Polynomial Regression)。 完全是使用线性回归的思路,关键在于为数据添加新的特征,而这些新的特征是原有的特征的多项式组合,采用这样的方式就能解决非线性问题。 多项式回归是升维,添加了新的特征之后,使得更好地拟合高维数据。关于偏差和方差...

2020-04-05 22:13:54 88

原创 关于梯度下降

什么是梯度下降简单地来说,多元函数的导数(derivative)就是梯度(gradient),分别对每个变量进行微分,然后用逗号分割开,梯度是用括号包括起来,说明梯度其实一个向量,我们说损失函数L的梯度为:我们知道导数就是变化率。梯度是向量,和参数维度一样。总结梯度下降这一目前机器学习、深度学习解决最优化问题的算法中,最核心、应用最广的方法。所谓梯度下降,是一种基于搜索的最优化方法,其作...

2020-03-29 23:36:10 164

原创 简单线性回归及最小二乘法

简单线性回归:简单线性回归及最小二乘法的数据推导1、简单线性回归是属于回归(regression),即label为连续数值型(continuous numerical variable),所谓简单,是指只有一个样本特征,即只有一个自变量;所谓线性,是指方程是线性的;所谓回归,是指用方程来模拟变量之间是如何关联的。简单线性回归,其思想简单,实现容易(与其背后强大的数学性质相关。同时也是许多强大的...

2020-03-22 23:21:44 298

原创 数据预处理与特征工程总结

特征预处理​ 特征预处理是数据预处理过程的重要步骤,是对数据的一个的标准的处理,几乎所有的数据处理过程都会涉及该步骤。数值型特征无量纲化​ 无量纲化使不同规格的数据转换到同一规格。常见的无量纲化方法有标准化和归一化。标准化:​ 标准化的前提是特征值服从正态分布,标准化后,其转换成标准正态分布。归一化​ MinMax归一化:区间缩放法利用了边界值信息,将属性缩放到[0,1]区...

2020-03-15 20:55:57 240

原创 评价指标总结

评价指标总结我们需要通过评价指标来判断模型的好坏:一、对于分类结果的评价的评价指标:1、分类准确度:即预测成功的在总数中的占比2、利用混淆矩阵:​ FN:False Negative,被判定为负样本,但事实上是正样本。FP:False Positive,被判定为正样本,但事实上是负样本。TN:True Negative,被判定为负样本,事实上也是负样本。TP:True Positive...

2020-03-15 20:26:59 246

原创 knn算法

什么是knn​ kNN(k-NearestNeighbor),也就是k最近邻算法。顾名思义,所谓K最近邻,就是k个最近的邻居的意思。也就是在数据集中,认为每个样本可以用离他最距离近的k个邻居来代表。​ 它是一种常用的监督学习方法,在分类任务中可以采用“投票法”,在回归任务中可以采用“平均法”,以及基于距离远近进行加权平均或加权投票,距离越近的样本权重越大。​ 简单来说就是“近朱者赤近墨者黑”...

2020-03-01 21:06:52 239

原创 scala中的接口——trait

scala中的接口没有接口,采用trait(特征)来代替接口的概念,类似于java中的 interface+abstract class, scala中称为类 混入/继承 了特质特质 trait– 可以类比java中的接口,但是又和接口非常不一样定义特质 trait xxx{ def m1() def m2(){....}}和java中的接口不同 scala中的特质可...

2019-12-19 10:17:24 462

原创 hive udaf总结

0xx01 概述hive的udaf全称 User-Defined Aggregation Functions。hive有两种udaf,simple and generic.区别如下Simple UDAFs, as the name implies, are rather simple to write, but incur performance penalties because of th...

2019-12-17 16:37:38 890

原创 flink的window理解

概述​ window可以将flink处理的无限stream流切分成有限流,进行时间段内数据的计算,它是有限流处理的核心组件。window对流的切分可以是基于时间的(Time Window),也可以是基于数据的(Count Window)。主要的操作如下:注:例子中的kafkaSource是一个DataStream对象keyed windows operator[外链图片转存失败,源站可能...

2019-11-28 18:39:27 564

原创 关于Requested row out of range for doMiniBatchMutation on HRegion

1 异常信息如下:019-11-21 11:12:49,078 [http-nio-17374-exec-6] ERROR c.fengjr.report.center.web.mq.receive.ReceiveMQ_1_3_4_8_9_18_19_32_48_Controller - 接受结算MQ异常org.springframework.data.hadoop.hbase.HbaseSy...

2019-11-21 16:45:16 2503 2

原创 flink数据类型和序列化

数据类型总览总体继承关系如下Flink的数据类型这里我们取一种类型分析它的继承关系序列化过程​ 具体的序列化过程时怎么样的呢?通过如图 TypeInfomation的createSerializer方法: /** * Creates a serializer for the type. The serializer may use the ExecutionConfig ...

2019-11-21 09:47:31 379

原创 java异常总结

java异常总结#01 异常概述异常分为两种​ checked异常(JVM检查时异常)​ Runtime异常(运行时异常)#02 异常处理机制使用try…catch捕获异常​ try块业务逻辑代码出现异常,系统自动捕获一个异常对象,提交给JVM,即抛出异常​ catch块中包含各种异常对象,执行第一个与try块中相匹配的对象所对应的代码块,即捕获异常​ finally块中进行...

2019-06-02 23:09:59 183

原创 JDBC典型用法

JDBC典型用法#01 JDBC常用的接口和类DriverManger常用的方法​ createConnetionConnection常用的方法创建Statement对象​ createStatement​ prepareStatement​ prepareCall控制事务的方法Statement常用的方法​ executeQuery(String sql)​ exe...

2019-06-02 23:09:06 219

原创 记一次不成功的拉链表

2019-05-10 02:19:37,565 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: Diagnostics report from attempt_1556531708937_6923_r_000000_0: Error: java.la...

2019-05-10 11:40:50 427

原创 java中的容器类

java中的容器数组 collection接口 list接口 ArrayList LinkedList Vector stack set接口 HashSet SortedSet接口 TreeSet map接口 HashMap SoredMap接口 TreeMap HashTable Prop...

2019-04-14 11:43:02 105

转载 数据仓库之数据脱敏方法论

数据脱敏对数据敏感程度进行安全级别划分 绝密 高保密 保密 可公开 敏感数据梳理 用户维度 手机号码、邮件地址、账号、地址、固定电话号码等信息(此外个人隐私数据相关还有如:种族、政治观点、宗教信仰、基因等) 用户终端维度 能够可能标识终端的唯一性字段,如设备id。 公司角度 交易金额、代金卷密码、充值码等 确定脱敏处理方法 替...

2019-04-13 15:32:45 1664

原创 java中的容器

java中的容器数组 collection接口 list接口 ArrayList LinkedList Vector stack list接口实现类的区别 ArrayList和Vector是基于数组实现的,但是ArrayList是不同步的,即线程不安全,所以效率低,而Vector是同步的,线程安全的,所以效率高 LinkedList基于链表...

2019-04-13 15:26:22 136

原创 数据仓库之数据模型

文章脉络 ER模型(关系实体模型) 特点 全面了解业务业务和数据 实施周期非常长 对建模人员的能力要求高 建模步骤 概念模型(高层模型) 抽象模型,描述主要的主题以及主题间的关系,用于描述企业的业务总体概况。 逻辑模型(中层模型)——在概...

2019-04-03 22:20:52 546

原创 写在数据仓库系列之前

​ 接下来的一段时间内会整理总结数据仓库的相关知识,可能暂时只是点,我会通过自己的工作感悟以及读书笔记等逐渐将它们丰满 起来。​ 之所以选择数据仓库这个切入点,来进行知识整理,一方面是因为工作确实是以数仓为中心展开的,另一方面也是因为在做数据相关工作的时候,数仓是一个绕不来的话题。无论是简单的数据分析,还是上层的数据挖掘,AI等全部是建立在数仓的基础上的。​ 这里的话,我...

2019-04-03 21:12:46 136

原创 数据结构与算法之二叉树

关于二叉树1、二叉树的性质2、概念性的,完全二叉树和满二叉树的区分3、二叉树的遍历分为先序,中序和后序,这个序说的是根节点的位置4。如果给定了先序或者后序任何一个,和中序,要求另一个,那么基本思路就是——找根 (根据前序或者后序找根,根据中序进行辅助找左,右节点)...

2019-03-21 21:58:18 230

原创 SPARK : failure: ``)'' expected but `(' found

问题:当通过sparkSQL执行ROW_NUMBER() OVER()开窗函数的时候,报了这个错,具体sql如下 select data from (SELECT *, ROW_NUMBER() OVER (partition by id ORDER BY time,data)num FROM operate_test)a where num=1但是报了以下的错误[1.29]...

2019-03-14 20:49:44 3082

原创 hive数据导入出错

今天进行ods层表向dwd层表数据导入的时候报了这个错2019-03-14 10:01:23,403 FATAL [IPC Server handler 7 on 11474] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Task: attempt_1550917126723_7329_m_000006_0 - exited : jav...

2019-03-14 10:14:58 2055

原创 OOZIE之创建shell节点命令

首先创建工作流然后将shell节点的符号拖到指定的区域选中需要的shell脚本文件需要注意的是:1、文件的权限必须具有可执行权限。本例采用了“777”权限。 2、第一个输入框处填包含后缀的文件名,文件部分的输入框要包含调度脚本和被调度脚本的完整文件名(包含路径和后缀),且都具有可执行权限。如果当前shell脚本为sqoop脚本命令,示例脚本如下...

2019-03-06 10:15:30 324

原创 kylin实操入门

先创建一个project 然后选择创建的project  然后点击data Source下的load Hive Table按钮填写需要的hive表的全称(库名.表名),完成后点击Sync按钮就是数据导入 然后创建一个新的ModelModel Name只能是英文 选择事实表(Fact Table),可以通过 add lookup T...

2018-11-27 11:41:54 672

原创 解决org.apache.sqoop.hive.HiveImport - Loading uploaded data into Hive Intercepting System.exit(1)

在 HUE 的 作业设计器中 运行sqoop 作业,调用命令:sqoop import --connect jdbc:mysql://localhost:3306/test --username root --password mysql-password --table t1 --hive-import时报错,错误如下: 33782 [main] INFO org.apache.sqoo...

2018-04-04 10:55:11 1246

原创 Cloudera Manager运维之Hbase问题

问题描述:在java客户端,利用写的简易代码进行HBase表格数据的增删改查可以通过,然后安排进行生产测试,这个时候出现问题,RegionServer总是不断自动推退出,即使将它进行重启,也会在重启后立马退出宕掉。问题查找:打开日志,都是INFO级别,很正常这种情况应该是内存原因,然后去看hbase对内存的内置,发现cloudera manager默认的配置是50M,对于简单的增删改查测试,这个内...

2018-03-07 21:26:14 2599

原创 Cloudera Manager 安装遇到的问题

1、Unable toverify database connection在安装hue数据库的时候出现Unable to verify databaseconnection这个问题,现在有两种不同的解决方案,需要根据自己的实际情况来进行解决1、安装mysql-compat-libs包      rpm -ivh mysql-community-libs-compat-5.1.7-1.el6.x86...

2018-03-07 11:30:37 655

原创 Oozie基础入门

前言:       因为工作需要用到oozie,但是网上的资料越看越迷茫,经过很大的努力,终于折腾清楚了,这里,做一个总结,帮助后来者更好地进行入门,当然,粗鄙之言,难免疏漏,欢迎交流指正 引入:       对于我们的工作,可能需要好几个hadoop作业(job)来协作完成,往往一个job的输出会被当做另一个job的输入来使用,这个时候就涉及到了数据流的处理。       我...

2018-03-01 15:08:50 36477 2

原创 cloudera manager运维日志 2018.02.27

下午打开cm网页发现问题运行报黄分别查看cm2,cm3,cm4节点磁盘使用情况CM2节点CM3节点CM4节点发现磁盘使用率达到了90%以上,于是对各个文件夹进行排查发现dfs文件系统占用空间很大,于是经过查看发现是因为dn文件夹下的数据过大造成了所以,进入hdfs的web界面,将不需要的文件做了删除注意:这里是测试机,所以直接删除了,如果是生产上的机器,那么最好将数据文件移动到一个新的硬盘上并在原...

2018-02-27 14:55:47 790

原创 cloudera manager运维日志 2018.02.26

登陆上cloudera manager 发现很多报空间不足,手贱就将/tmp目录全部删除了,然后重启server和agent,发现agent可以正常启动,但是server没办法正常启动,查看日志,发现报错2018-02-23 11:13:05,313 ERRORmain:com.cloudera.enterprise.dbutil.DbUtil: InnoDB engine not found. ...

2018-02-26 20:15:11 1491

ext-2.2.zip (oozie打开web界面所需的js文件)

oozie安装时,所需要的js文件在ext-2.2.zip中,需要解压到“/var/oozie/lib”(CDH版本的oozie)中

2018-03-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除