Hive优化

Hive简单优化与定期ETL Hive优化 Hive的执行依赖于底层的MapReduce作业,因此对Hadoop作业的优化或者对MapReduce作业的调整是提高Hive性能的基础。 大多数情况下,用户不需要了解Hive内部是如何工作的。但是当对Hive具有越来越多的经验后,学习一些Hive的...

2019-06-14 18:35:47

阅读数 1

评论数 0

初始装载

初始装载 在数据仓库可以使用前,需要装载历史数据。这些历史数据是导入进数据仓库的第一个数据集合。 首次装载被称为初始装载,一般是一次性工作。由最终用户来决定有多少历史数据进入数据仓库。例如,数据仓库使用的开始时间是2015年3月1日,而用户希望装载两年的历史数据,那么应该初始装载2013年3月1日...

2019-06-06 09:52:29

阅读数 9

评论数 0

PCA算法推导

PCA理解与应用。 Motivation PCA与Factor analysis非常相似,都是主要用于reduction data dimensions。但PCA的想法相比于Factor analysis更简单,实现起来也更加直观和容易(只需要算特征值)。 PCA tries to ident...

2019-05-26 22:03:23

阅读数 14

评论数 0

基于时间戳的并发控制

实现基于时间戳的事务处理原型。 TO算法流程 维护若干时间戳 事务时间戳:以事务开始时间标识事务的先后顺序,表示为ts(T) 数据项读写时间戳:记录读写该数据的最新事务的时间戳,表示为r_ts(X), w_ts(X) 另每个数据项x有三个队列,分别为读队列dm_read(x),写队列d...

2019-05-22 21:02:28

阅读数 40

评论数 0

基于锁的并发控制

实现基于2PL的事务处理原型。 基本概念 Short duration lock 短锁 动作开始前申请锁,动作结束立即把锁释放 Long duration Lock 长锁 动作开始前申请锁,动作结束继续持有锁 2PL的思路 事务从锁的角度看分为加锁和解锁两个阶段 Growing...

2019-05-22 21:01:34

阅读数 15

评论数 0

Factor Analysis

这应该是学ML以来推导过的最痛苦的算法了,所以我想先用直观的语言描述什么是Factor analysis。 因子分析(factor analysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖 关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几 个假想变量...

2019-05-14 22:27:00

阅读数 12

评论数 0

Hive使用

使用Hadoop和Hive。 首先,Hive是使用了MapReduce引擎和HDFS存储的中间键,其元数据存储在MySQL,Hive只是方便查询,其数据库中的数据都在HDFS中。 安装Hadoop和Hive 在之前的分布式系统中,已经安装好Hadoop,具体教程可参考这里。 需要注意的是,在U...

2019-05-09 20:49:50

阅读数 38

评论数 0

EM算法推导

推导EM算法,并证明收敛性。 Jensen’s inequality 定理:若fff是凸函数,XXX是随机变量,我们有:E[f(X)]≥f(EX)\mathrm{E}[f(X)] \geq f(\mathrm{E} X)E[f(X)]≥f(EX) 若fff是严格凸函数,也就是f′′&a...

2019-04-18 21:05:12

阅读数 73

评论数 0

EM 思想

以Kmeans和GMM为例,阐述EM思想。 Kmeans kmeans是一种相当简单和直观的聚类算法,主要分类两步: 对于每个点,选择离他最近的聚类中心作为他的类别:c(i):=arg⁡min⁡j∥x(i)−μj∥2​c^{(i)} :=\arg \min _{j}\left\|x^{(i)}...

2019-04-18 11:40:26

阅读数 23

评论数 0

Advice for applying Machine Learning -- Andrew Ng

Key ideas: Diagnostics for debugging learning algorithms. Error analyses and ablative analysis. How to get started on a machine learning problem. P...

2019-04-16 21:08:01

阅读数 14

评论数 0

Regularization&feature selection

Cross validation / multual information / Bayesian statistics and regularization 在之前我们讨论了最小化风险函数,但很多时候这样做的效果并不好,这是由于bias and variance的权衡。因此,我们需要进行模型选...

2019-04-15 15:06:25

阅读数 44

评论数 0

Convex Formulation for Learning from Positive and Unlabeled Data

Unbiased PU learning. 该论文在之前PU learning中使用非凸函数作为loss的基础上,对正类样本和未标记样本使用不同的凸函数loss,从而将其转为凸优化问题。结果表明,该loss(double hinge loss)与非凸loss(ramp)精度几乎一致,但大大减少...

2019-04-03 13:45:44

阅读数 31

评论数 0

Analysis of Learning from Positive and Unlabeled Data

PU learning论文阅读。 本文从基本的分类损失出发,推导了PU的分类问题其实就是Cost-sensitive classification的形式,同时,通过实验证明了如果使用凸函数作为loss function,例如hinge loss会导致错误的分类边界(有bias),因此需要使用例如...

2019-04-03 13:45:02

阅读数 25

评论数 0

Learning Classifiers from Only Positive and Unlabeled Data

PU learning 经典论文。 本文主要考虑在SCAR假设下,证明了普通的分类器和PU分类器只相差一个常数,因此可以使用普通分类器的方法来估计p(s∣x)​p(s|x)​p(s∣x)​,进而得到p(y∣x)​p(y|x)​p(y∣x)​。同时提供了三种方法来估计这个常数,最后,还对先验p(...

2019-04-03 13:41:46

阅读数 27

评论数 0

日志分析

创建外部表 首先启动gpfdist服务: nohup gpfdist -d /home/dyt/PJ4 -p 9058 -l /home/dyt/PJ4/gpfdist.log & 查看是否启动成功: ps -ef | grep gpfdist 创建外部表 1,1234324...

2019-03-21 09:35:29

阅读数 25

评论数 0

历史拉链表

使用UDW创建历史拉链表。 介绍 历史拉链表 历史拉链表是一种数据模型,主要针对数据仓库设计中表存储数据的方式而定义的。**它记录一个事物从开始到当前状态的所有变化的信息。**拉链表可以避免按每一天存储所有记录造成的海量存储问题,同时也是处理缓慢变化数据的一种常见方式。 也就是说,对于表...

2019-03-20 18:36:12

阅读数 41

评论数 0

生成模型

介绍判别模型和生成式模型,朴素贝叶斯。 生成模型和判别模型 discriminative learning algorithms,也就是根据特征值来求结果的概率。 可以表示为P(y∣x;θ)P(y|x;\theta)P(y∣x;θ),在参数确定的条件下,直接求得在当前样本feature下的y...

2019-03-20 18:34:17

阅读数 25

评论数 0

线性回归与分类

回顾线性回归,logistic回归和softmax。 LMS 先构造线性函数进行拟合:h(x)=θ0+θ1x1+θ2x2h(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2h(x)=θ0​+θ1​x1​+θ2​x2​ 定义cost function:J(θ...

2019-03-20 18:33:22

阅读数 15

评论数 0

SVM入门笔记

本文不是一篇正式的tutorial,只是帮助回忆和理解SVM推导的笔记。此文章会长期更新。 分类问题 SVM(support vector machine)是一种著名的分类算法。我们学过Logistic回归,但它只能处理简单的线性分类。在现实生活中,很多问题的属性不能简单的用线性分类完成,或者说线...

2019-03-20 18:32:16

阅读数 153

评论数 0

LevelDB安装及使用

安装并使用LevelDB。 环境安装 本项目基于Ubuntu 16.04.1 LTS,参考链接。 建议预留50G空间,根目录20G,boot 500m,swap 2到4G,其他的都给home 若使用虚拟机,建议使用sudo apt-get install gparted进行可视化分区及扩...

2019-03-20 18:30:23

阅读数 51

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭