自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 CMU 11-785 L15 Divergence of RNN

Variants on recurrent nets Architectures How to train recurrent networks of different architectures Synchrony The target output is time-synchron...

2020-05-30 21:34:56 131 0

原创 CMU 11-785 L14 Stability analysis and LSTMs

Stability Will this necessarily be「Bounded Input Bounded Output」? Guaranteed if output and hidden activations are bounded But will it saturate? ...

2020-05-25 19:50:18 211 0

原创 CMU 11-785 L13 Recurrent Networks

Modelling Series In many situations one must consider a series of inputs to produce an output Outputs too may be a series Finite response model...

2020-05-20 23:35:11 66 0

原创 CMU 11-785 L12 Back propagation through a CNN

Convolution Each position in zzz consists of convolution result in previous map Way for shrinking the maps Stride greater than 1 Downsampling (...

2020-05-19 19:37:00 40 0

原创 CMU 11-785 L10 CNN architecture

Architecture A convolutional neural network comprises “convolutional” and “downsampling ” layers Convolutional layers comprise neurons that scan t...

2020-05-19 19:28:29 34 0

原创 CMU 11-785 L09 Cascade-Correlation and Deep Learning

Cascade-Correlation Algorithm Start with direct I/O connections only. No hidden units. Train output-layer weights using BP or Quickprop. If error is...

2020-05-19 19:23:48 36 0

原创 CMU 11-785 L08 Motivation of CNN

Movivation Find a word in a signal of find a item in picture The need for shift invariance The location of a pattern is not important So we can s...

2020-05-07 22:24:15 31 0

原创 Nodejs 豆瓣爬虫实践
原力计划

使用 Nodejs 从豆瓣小组中爬取帖子,并进行过滤。 前端网页解析 网页结构 打开一个豆瓣小组网页,例如 https://www.douban.com/group/16473/ 使用 F12 解析网站,可以看到,每一个帖子都由一个a标签构成,标题为title 我们需要提取的包括标题、URL以...

2020-05-07 10:04:00 104 0

原创 CMU 11-785 L07 Optimizers and regularizers

Optimizers Momentum and Nestorov’s method improve convergence by normalizing the mean (first moment) of the derivatives Considering the second momen...

2020-05-03 15:01:45 39 0

原创 CMU 11-785 L06 Optimization

Problems Decaying learning rates provide googd compromise between escaping poor local minima and convergence Many of the convergence issues arise be...

2020-05-03 15:01:26 39 0

原创 CMU 11-785 L05 Convergence

Backpropagation The divergence function minimized is only a proxy for classification error(like Softmax) Minimizing divergence may not minimize clas...

2020-04-23 23:24:45 33 0

原创 在服务器上部署 Jupyter Notebook

安装 Ananconda 使用命令行安装 wget wget https://repo.continuum.io/archive/Anaconda3-5.2.0-Linux-x86_64.sh 注意,选择安装路径时,如果想要所有用户都能使用,则安装在usr/local/ananconda3...

2020-04-23 23:21:33 47 0

原创 CMU 11-785 L03.5 A brief note on derivatives

What is derivatives? A derivative of a function at any point tells us how much a minute increment to the argument of the function will increment the...

2020-04-21 20:02:06 35 0

原创 CMU 11-785 L04 Backpropagation

Problem setup Input-output pairs: not to mention Representing the output: one-hot vector yi=exp⁡(zi)∑jexp⁡(zj) y_{i}=\frac{\exp \left(z_{i}\rig...

2020-04-21 19:56:29 37 0

原创 CMU 11-785 L03 Learning the network

Preliminary The bias can also be viewed as the weight of another input component that is always set to 1 z=∑iwixiz=\sum_{i} w_{i} x_{i}z=∑i​wi​xi...

2020-03-16 16:08:36 45 0

原创 CMU 11-785 L02 What can a network represent

Preliminary Perceptron Threshold unit “Fires” if the weighted sum of inputs exceeds a threshold Soft perceptron Using sigmoid function instead o...

2020-03-04 11:01:50 82 0

原创 使用 Hugo 进行持续集成写作及同步

我们通常会在本地计算机上写 Markdown 文件,然后使用 Hugo 建立静态博客网站。因此需要一种方法将本地文件同步到服务器上,同时实现 GitHub 集成,确保网站的可维护性。我使用了 Git hook 的方法进行同步与集成。 服务器上 更新 yum update yum install n...

2020-03-03 16:40:08 131 0

原创 Hive优化

Hive简单优化与定期ETL Hive优化 Hive的执行依赖于底层的MapReduce作业,因此对Hadoop作业的优化或者对MapReduce作业的调整是提高Hive性能的基础。 大多数情况下,用户不需要了解Hive内部是如何工作的。但是当对Hive具有越来越多的经验后,学习一些Hive的...

2019-06-14 18:35:47 91 0

原创 初始装载

初始装载 在数据仓库可以使用前,需要装载历史数据。这些历史数据是导入进数据仓库的第一个数据集合。 首次装载被称为初始装载,一般是一次性工作。由最终用户来决定有多少历史数据进入数据仓库。例如,数据仓库使用的开始时间是2015年3月1日,而用户希望装载两年的历史数据,那么应该初始装载2013年3月1日...

2019-06-06 09:52:29 90 0

原创 PCA算法推导

PCA理解与应用。 Motivation PCA与Factor analysis非常相似,都是主要用于reduction data dimensions。但PCA的想法相比于Factor analysis更简单,实现起来也更加直观和容易(只需要算特征值)。 PCA tries to ident...

2019-05-26 22:03:23 1061 0

原创 基于时间戳的并发控制

实现基于时间戳的事务处理原型。 TO算法流程 维护若干时间戳 事务时间戳:以事务开始时间标识事务的先后顺序,表示为ts(T) 数据项读写时间戳:记录读写该数据的最新事务的时间戳,表示为r_ts(X), w_ts(X) 另每个数据项x有三个队列,分别为读队列dm_read(x),写队列d...

2019-05-22 21:02:28 2338 0

原创 基于锁的并发控制

实现基于2PL的事务处理原型。 基本概念 Short duration lock 短锁 动作开始前申请锁,动作结束立即把锁释放 Long duration Lock 长锁 动作开始前申请锁,动作结束继续持有锁 2PL的思路 事务从锁的角度看分为加锁和解锁两个阶段 Growing...

2019-05-22 21:01:34 540 0

原创 Factor Analysis

这应该是学ML以来推导过的最痛苦的算法了,所以我想先用直观的语言描述什么是Factor analysis。 因子分析(factor analysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖 关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几 个假想变量...

2019-05-14 22:27:00 57 0

原创 Hive使用

使用Hadoop和Hive。 首先,Hive是使用了MapReduce引擎和HDFS存储的中间键,其元数据存储在MySQL,Hive只是方便查询,其数据库中的数据都在HDFS中。 安装Hadoop和Hive 在之前的分布式系统中,已经安装好Hadoop,具体教程可参考这里。 需要注意的是,在U...

2019-05-09 20:49:50 121 0

原创 EM算法推导

推导EM算法,并证明收敛性。 Jensen’s inequality 定理:若fff是凸函数,XXX是随机变量,我们有:E[f(X)]≥f(EX)\mathrm{E}[f(X)] \geq f(\mathrm{E} X)E[f(X)]≥f(EX) 若fff是严格凸函数,也就是f′′&g...

2019-04-18 21:05:12 123 0

原创 EM 思想

以Kmeans和GMM为例,阐述EM思想。 Kmeans kmeans是一种相当简单和直观的聚类算法,主要分类两步: 对于每个点,选择离他最近的聚类中心作为他的类别:c(i):=arg⁡min⁡j∥x(i)−μj∥2​c^{(i)} :=\arg \min _{j}\left\|x^{(i)}...

2019-04-18 11:40:26 55 0

原创 Advice for applying Machine Learning -- Andrew Ng

Key ideas: Diagnostics for debugging learning algorithms. Error analyses and ablative analysis. How to get started on a machine learning problem. P...

2019-04-16 21:08:01 47 0

原创 Regularization&feature selection

Cross validation / multual information / Bayesian statistics and regularization 在之前我们讨论了最小化风险函数,但很多时候这样做的效果并不好,这是由于bias and variance的权衡。因此,我们需要进行模型选...

2019-04-15 15:06:25 74 0

原创 Convex Formulation for Learning from Positive and Unlabeled Data

Unbiased PU learning. 该论文在之前PU learning中使用非凸函数作为loss的基础上,对正类样本和未标记样本使用不同的凸函数loss,从而将其转为凸优化问题。结果表明,该loss(double hinge loss)与非凸loss(ramp)精度几乎一致,但大大减少...

2019-04-03 13:45:44 225 1

原创 Analysis of Learning from Positive and Unlabeled Data

PU learning论文阅读。 本文从基本的分类损失出发,推导了PU的分类问题其实就是Cost-sensitive classification的形式,同时,通过实验证明了如果使用凸函数作为loss function,例如hinge loss会导致错误的分类边界(有bias),因此需要使用例如...

2019-04-03 13:45:02 310 0

原创 Learning Classifiers from Only Positive and Unlabeled Data

PU learning 经典论文。 本文主要考虑在SCAR假设下,证明了普通的分类器和PU分类器只相差一个常数,因此可以使用普通分类器的方法来估计p(s∣x)​p(s|x)​p(s∣x)​,进而得到p(y∣x)​p(y|x)​p(y∣x)​。同时提供了三种方法来估计这个常数,最后,还对先验p(...

2019-04-03 13:41:46 102 0

原创 日志分析

创建外部表 首先启动gpfdist服务: nohup gpfdist -d /home/dyt/PJ4 -p 9058 -l /home/dyt/PJ4/gpfdist.log & 查看是否启动成功: ps -ef | grep gpfdist 创建外部表 1,123432423,2...

2019-03-21 09:35:29 61 0

原创 历史拉链表

使用UDW创建历史拉链表。 介绍 历史拉链表 历史拉链表是一种数据模型,主要针对数据仓库设计中表存储数据的方式而定义的。**它记录一个事物从开始到当前状态的所有变化的信息。**拉链表可以避免按每一天存储所有记录造成的海量存储问题,同时也是处理缓慢变化数据的一种常见方式。 也就是说,对于表...

2019-03-20 18:36:12 1086 0

原创 生成模型

介绍判别模型和生成式模型,朴素贝叶斯。 生成模型和判别模型 discriminative learning algorithms,也就是根据特征值来求结果的概率。 可以表示为P(y∣x;θ)P(y|x;\theta)P(y∣x;θ),在参数确定的条件下,直接求得在当前样本feature下的y...

2019-03-20 18:34:17 1267 0

原创 线性回归与分类

回顾线性回归,logistic回归和softmax。 LMS 先构造线性函数进行拟合:h(x)=θ0+θ1x1+θ2x2h(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2h(x)=θ0​+θ1​x1​+θ2​x2​ 定义cost function:J(θ...

2019-03-20 18:33:22 116 0

原创 SVM入门笔记

本文不是一篇正式的tutorial,只是帮助回忆和理解SVM推导的笔记。此文章会长期更新。 分类问题 SVM(support vector machine)是一种著名的分类算法。我们学过Logistic回归,但它只能处理简单的线性分类。在现实生活中,很多问题的属性不能简单的用线性分类完成,或者说线...

2019-03-20 18:32:16 255 0

原创 LevelDB安装及使用

安装并使用LevelDB。 环境安装 本项目基于Ubuntu 16.04.1 LTS,参考链接。 建议预留50G空间,根目录20G,boot 500m,swap 2到4G,其他的都给home 若使用虚拟机,建议使用sudo apt-get install gparted进行可视化分区及扩...

2019-03-20 18:30:23 977 0

原创 并发链表

实现支持并发安全的有序链表。 C++并发 头文件 <atomic> 该头文主要声明了两个类, std::atomic 和 std::atomic_flag,另外还声明了一套 C 风格的原子类型和与 C 兼容的原子操作的函数。 <thread> 该头文件主要声明...

2019-03-20 18:29:33 292 0

原创 数据库备份

使用三种不同的备份方法 SQL dump Backup-SQL Dump Dump方法是生成含有SQL命令的文本文件。通过系统中自带的pg_dump指令可以将指定库中的表及其表中的数据以SQL指令的形式dump到一个文件中 pg_dump -hlocalhost -U postgres -p ...

2019-02-28 15:13:21 3040 0

原创 数据管理系统 入门及实践

本学期上了数据管理系统这门课,主要是以关系数据库为主,并介绍现在流行的NoSQL数据库,以及分布式的NewSQL、数据库基本原理,对我而言帮助很大。 下面将本学期的课程大纲以及Project分享给大家,更多内容我会在我个人博客上持续更新。 Syllabus Lecture Reading ...

2019-01-20 21:58:20 132 0

提示
确定要删除当前文章?
取消 删除