Lasso regression(稀疏学习,R)

这一讲呢,给大家讲解一下lasso回归。目前这个方法还没有一个正规的中文名,如果从lasso这个单词讲的话,叫套索。那么套索是啥呢,就是套马脖子的东西,见下图: 就是拿这个东西把动物脖子套住,不要它随便跑。lasso 回归就是这个意思,就是让回归系数不要太大,以免造成过度拟合(overfit...

2017-12-19 22:10:36

阅读数 23733

评论数 2

logistic regression(二项 logistic 与 多项logistic )

逻辑斯蒂回归 基本思想 数学推导 基于R的案例 结论 基本思想这一讲给大家介绍一下,广义线性回归模型当中的一个最为典型的模型,逻辑斯底回归(logistic regression)。估计大家都见过。我们最长用到的是二值逻辑斯底回归,多项逻辑斯底书里边介绍的少。今天我们重点说一下,二项逻辑斯底回归和...

2017-12-19 20:11:34

阅读数 2480

评论数 0

因子分析(factor analysis)

因子分析 基本思想 公式推导 基于R的实验 结论 基本思想在这一讲当中呢,我们谈一谈,因子分析(factor analysis),在上一节当中,我们说了主成分分析,我们说这两种方法有点相似,初学者往往有些搞不清楚。首先从原理上说,主成分分析是试图寻找原有自变量的一个线性组合。这个组合方差要大,那么...

2017-12-19 15:32:24

阅读数 25113

评论数 1

基于R的主成分分析

基于R的主成分分析 背景介绍 数学原理推导 基于R的实验 结论 背景介绍这一讲,我们讲讲主成分分析( Principal Component Analysis),这是一种非常经典的方法。经常和主成分分析一起出现的是另一种经典的方法,叫因子分析(factor analysis)。其实这两个方法还是不...

2017-12-19 10:00:10

阅读数 1238

评论数 0

基于R语言的分位数回归(quantile regression)

分位数回归(quantile regression) 这一讲,我们谈谈分位数回归的知识,我想大家传统回归都经常见到。分位数回归可能大家见的少一些,其实这个方法也很早了,大概78年代就有了,但是那个时候这个理论还不完善。到2005年的时候,分位数回归的创立者Koenker R写了一本分位数回归的专...

2017-12-18 17:45:21

阅读数 11250

评论数 1

基于R语言的聚类(谱聚类)

谱聚类 在上一讲当中,我们讲解了基于模型的聚类,也就是混合模型,实质上是首先拟合一个混合概率分布,再求条件概率,最终确定每一个点应当属于哪一类。在这一讲当中,我们谈一谈谱聚类,谱聚类和DBSCAN这种聚类方法一样,都是适用于那种奇形怪状的数据集,绝大多数都是人造数据集,比如下图: 像这种样...

2017-12-18 11:36:42

阅读数 1777

评论数 1

基于R的聚类模型(混合模型-基于概率密度分布的聚类方法)

混合模型 在上一讲当中,我们给大家介绍了一种比较特殊的聚类算法,DBSCAN。这种算法主要针对一些样本点分布比较特殊的情形,并且我们通过例子发现,传统K-means算法对这种数据无效。在这一讲当中,我们再次看一种比较比较常见,适用情形非常固定的聚类算法,叫做混合模型,这种聚类算法是假设样本分布来...

2017-12-18 10:51:40

阅读数 1079

评论数 2

基于R的聚类分析(DBSCAN,基于密度的聚类分析)

DBSCAN聚类分析(基于R语言) 在上一讲中,主要是给大家介绍了,K-means聚类,层次聚类这两种聚类方法是最为典型的两种聚类方法。K-means聚类基本原理是这样的,在n个样本点中,首先提前设定要聚类几类,比如说要聚成三类,那么在n个样本点中先随机选择三个点,最为初始点,将剩下的n-3个点...

2017-12-17 22:54:31

阅读数 2338

评论数 0

基于R语言的聚类分析(k-means,层次聚类)

今天给大家展示基于R语言的聚类,在此之前呢,首先谈谈聚类分析,以及常见的聚类模型,说起聚类我们都知道,就是按照一定的相似性度量方式,把接近的一些个体聚在一起。这里主要是相似性度量,不同的数据类型,我们需要用不同的度量方式。除此之外,聚类的思想也很重要,要是按照聚类思想来说,主要有这么几大类,第一大...

2017-12-17 21:42:11

阅读数 20939

评论数 1

大一新生信息可视化展示(基于Echarts)

哈哈,今天我们说点有意思的,我们刚进大学的时候第一件事情就是想知道整个新生群体的信息,比如,今年河北录取了多少人,山东录取了多少人。进一步呢,我们还想知道,各个学院的人数,比如最大的学院他们有多少人,最小的学院有多少人。当然了,男女比例更想知道了,最起码想知道,各个学院的男女比例,非常不幸的是,在...

2017-12-17 20:42:11

阅读数 2727

评论数 0

julia语言做数据预处理

Julia语言数据预处理 本文简单介绍拿Julia语言进行数据预处理,数据R语言和python的都应该有感觉,就是R和python做数据预处理非常方便。R方面主要是有dplyr这个包,或者是datatable这个包。python对应的pandas这个库,因此这几个包极大地促进了数据预处理。jui...

2017-12-17 20:01:43

阅读数 2048

评论数 1

特征工程(feature engineering)

今天我们聊一聊特征工程方面的知识,随着大数据时代的到来,特征工程发挥着越来越重要的作用。那么什么是特征工程呢,简单说,就是发现对因变量y有明显影响作用的特征,通常称自变量x为特征,特征工程的目的是发现重要特征。一般来说,特征工程大体上可以分为三个方面,一是特征构造,而是特征选择,三是特征生成。三个...

2017-12-08 23:09:52

阅读数 20179

评论数 6

好书推荐《sparse modeling Theory, Algorithms, and Applications》稀疏学习

今天给大家推荐一本书《sparse modeling  Theory, Algorithms, and Applications》,大家一看名字就猜到内容了,关于稀疏学习的,如果对机器学习或者统计比较了解的大家肯定都知道稀疏学习,那么这里我再简单说两句。那么什么叫稀疏学习呢,简单说,就是一个模型里...

2017-12-07 22:32:02

阅读数 691

评论数 0

统计与机器学习发展的三条主线(三)

昨天带领大家沿着线性回归的路线走了一下,我们谈到线性回归有两个点子可以发展,一个点子就是从线性回归线上点的含义发展,线性回归直线上的每个点代表在给定x的情况下,y的均值,既然有均值,也就是存在实际存在着y的一个分布。实际上我们是在损失函数为均方损失的条件下,利用最小二乘法得到的就是均值,如果损失函...

2017-12-07 21:57:01

阅读数 245

评论数 0

好书推荐《R语言在定量金融中的应用》

给大家推荐一本R语言在定量金融方面的好书,是我老师编写的,我也非常有幸参与到这本书的编写过程中。这本书2015年5月份正式上线,其实从2013年底开始写的,经历大约两年的时间。这本书一出来就收到了很大的关注,读者反映都很好。这本书本身是属于一个系列的《数量经济系列丛书》一本,这系列的书封面很相似,...

2017-12-06 20:00:30

阅读数 2192

评论数 2

统计与机器学习发展的三条主线(二)

今天我们继续,昨天我们说要带领大家捋一捋统计与机器学习发展的几条主线,上一篇文章主要是从神经网络谈起,从最开始的感知器,发展到BP算法,再到后面的卷积神经网络以及最后的深度信度网络,这可以说是神经网络非常重要的一条发展主线,而且到现在也还在发展,从2012年起,又有许多新的神经网络提出来,在图像识...

2017-12-06 19:08:04

阅读数 170

评论数 0

统计与机器学习发展的三条主线(一)

今天在这里简单谈谈统计与机器学习发展的三条主线。第一,为什么我们要找主线,答案很简单,如果没有主线的话,我们学习一个东西就困难很多。举个例子来说,微积分的主线是什么,那么大家都知道,刚开始牛顿和莱布尼兹搞出来微积分了,但是呢,有很多积分是无法安装牛顿那一套来计算的,所以后面勒贝格为了解决一些积分无...

2017-12-05 22:51:38

阅读数 265

评论数 0

开通博客了

开始写博客了,主要是对这几年自己的学习做一个小的总结。2011年上大学以来,主要是围绕数学+计算机+其他的模式进行学习,这几年下来感觉收获还真不少。

2017-12-05 21:40:36

阅读数 132

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭