2018年01月_Font Tian

12月 11月 10月 09月 07月 06月 05月 02月 01月

原创 Sklearn中的CV与KFold详解

关于交叉验证,我在之前的文章中已经进行了简单的介绍,而现在我们则通过几个更加详尽的例子.详细的介绍CV%matplotlib inlineimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn import datasetsfrom sklearn import s...

2018-01-31 17:35:42 33875 1

原创机器学习中的数据集划分问题

留出法(hold-out)使用 n:m and n + m =1 的形式对原数据进行分割,例如 train : test = 7 : 3 or train : test = 6.5 : 3.5 但是这种相对原始的处理方式效果并不好,缺点如下: 缺点一:浪费数据缺点二:容易过拟合,且矫正方式不方便这时,我们需要使用另外一种分割方式-交叉验证或者留P法(leave P out)

2018-01-31 17:07:55 8222

原创 Gradient Tree Boosting:梯度提升树详解

理论数学推导请参考《统计机器学习》-李航,或者参考sklearn的官方文档,下面是我的部分笔记,也可以作为参考优缺点GBRT是对任意的可微损失函数的提升算法的泛化，即可回归亦可分（sai）类（ting）。优点： 1. 对混合数据的的天然处理能力 2. 强大的预测能力（主要指算法本身的能力强大，一般性能好） 3. 在输出空间中对异常点的鲁棒性（通过具有鲁棒性的

2018-01-26 22:02:09 11266

Bagging(Tree)相较于Tree增加了偏差,但是降低了方差,最终得到了优于Tree的模型,而同样的Bagging(Tree)_2进一步大幅度增加了偏差,但是同样的方差也大幅度下降,最终得到了效果优于Bagging(Tree)的最终模型。虽然在Bagging中引入的随机分割增加了偏差,但是因为多个模型的集成平均,同时也使得我们在总体上获取了更好的模型,在本篇文章中,我们称之为Bagging的特性一,在后面我们将会验证这一特性。

2018-01-16 14:16:10 19988 1

原创 RandomForest:随机森林

随机森林：RF随机森林是一种一决策树为基学习器的Bagging算法，但是不同之处在于RF决策树的训练过程中还加入了随机属性选择（特征上的子采样）传统的决策树在选择划分的属性时，会选择最优属性RF 首先，从该节点的属性中损及选择出K个属性组成一个随机子集（类也就是Bagging中的Random Subspaces,一般通常K=log2(n))然后再从这个子集中选择一个最右子集进行划分

2018-01-16 14:07:02 6189 2

原创通过模型进行特征选择

第一种是基于L1的特征选择，使用L1正则化的线性模型会得到稀疏解，当目标是降低维度的时候，可以使用sklearn中的给予L1正则化的线性模型，比如LinearSVC，逻辑回归，或者Lasso。使用 Lasso，alpha 的值越大，越少的特征会被选择。特征选取并不一定升:所有特征有效的情况下,去除的特征只能带来模型性能的下降,即使不是全部有效很多时候,低重要程度的特征也并不一定代表着一定会导致模型性能的下降,因为某种度量方式并不代表着该特征的最终效果,很多时候我们的度量方式,往往只是一个参考而已.

2018-01-15 15:17:55 15290 7

原创 Hyperopt TypeError: 'generator' object is not subscriptable

BUG最近复用以前的代码,结果发现了一个bug,bug如下: File "/home/michael/work/oanda/src/oanda/trend_prediction/find_optimal_model.py", line 124, in <module> main() File "/home/michael/work/oand...

2018-01-09 14:34:16 3420 6

原创递归式特征消除：Recursive feature elimination

简述特征的选取方式一共有三种，在sklearn实现了的包裹式(wrapper)特诊选取只有两个递归式特征消除的方法，如下：recursive feature elimination ( RFE )通过学习器返回的 coef_ 属性或者 feature_importances_ 属性来获得每个特征的重要程度。然后，从当前的特征集合中移除最不重要的特征。在特征集合上不断的重复递归这个步骤

2018-01-08 16:57:31 35553 46

原创单变量特征选择:Univariate feature selection

sklearn中的单变量特征选择单变量的特征选择是通过基于一些单变量的统计度量方法来选择最好的特征，比如卡方检测等。Scikit-learn 将单变量特征选择的学习器作为实现了 transform方法的对象：sklearn中实现的方法有:SelectKBest 保留评分最高的 K 个特征SelectPercentile 保留最高得分百分比之几的特征对每个特征应用常见的单变量统计测

2018-01-07 20:56:44 8626

原创方差过滤: Removing features with low variance

方差特征选择的原理与使用VarianceThreshold 是特征选择的一个简单基本方法,其原理在于–底方差的特征的预测效果往往不好。而VarianceThreshold会移除所有那些方差不满足一些阈值的特征。默认情况下，它将会移除所有的零方差特征，即那些在所有的样本上的取值均不变的特征。例如，假设我们有一个特征是布尔值的数据集，我们想要移除那些在整个数据集中特征值为0或者为1的比例超过8

2018-01-07 20:54:18 5377 2

汉语交叉依存非投射现象

一般语言中存在着投射性现象,但是在汉语中也存在非投射现象.本论文是对汉语中非投射现象的证明.伪汉语自然语言处理经典论文之一.

2018-10-03

mongo开发指南

mongodb开发指南,适合新手入门用.这本书本身是我们老师教授nosql数据库时自己制作的教材.

2018-10-03

wps for linux 2017版本

wps for linux 2017版本,安装的时候主要环境依赖,也可以去官网下载,但是现在官网不知道为什么只有2016的版本,不知道到是不是我没找到,还是怎么着.

2017-11-21

数据科学与人工智能

非常非常简洁的演讲时使用的ppt,我的眼睛以脱稿为主,所以本ppt内容很少,很少

2017-11-17

中文停用词表英文停用词表中英文停用词表

多版本中文停用词表英文停用词表中英文停用词表以及python停用词词表合并程序(2个)

2017-07-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

FontTian的博客

原创 Sklearn中的CV与KFold详解

原创机器学习中的数据集划分问题

原创 Gradient Tree Boosting:梯度提升树详解

原创集成算法中的Bagging

原创 RandomForest:随机森林

原创通过模型进行特征选择

原创 Hyperopt TypeError: 'generator' object is not subscriptable

原创递归式特征消除：Recursive feature elimination

原创单变量特征选择:Univariate feature selection

原创方差过滤: Removing features with low variance

汉语交叉依存非投射现象

mongo开发指南

wps for linux 2017版本

数据科学与人工智能

中文停用词表英文停用词表中英文停用词表

空空如也

汉语交叉依存非投射现象

mongo开发指南

wps for linux 2017版本

数据科学与人工智能

中文停用词表 英文停用词表 中英文停用词表

空空如也

中文停用词表英文停用词表中英文停用词表