FontTian的专栏

数据科学与人工智能

排序:
默认
按更新时间
按访问量

R语言简介与案例

R语言是一门统计学家的计算机语言,被广泛应用于数据分析,统计与机器学习这几个领域,随着时间的发展,它的功能愈加强大.本文将介绍R语言的基本知识:包括使用内置数学方法,自定义函数,安装与调用高级算法.并配有相关代码.

2018-06-22 09:46:13

阅读数:98

评论数:0

Sklearn中的CV与KFold详解

关于交叉验证,我在之前的文章中已经进行了简单的介绍,而现在我们则通过几个更加详尽的例子.详细的介绍 CV %matplotlib inline import numpy as np from sklearn.model_selection import train_test_split...

2018-01-31 17:35:42

阅读数:1968

评论数:0

数据集划分问题

留出法(hold-out) 使用 n:m and n + m =1 的形式对原数据进行分割,例如 train : test = 7 : 3 or train : test = 6.5 : 3.5 但是这种相对原始的处理方式效果并不好,缺点如下: 缺点一:浪费数据 缺点二:容易过拟合,且矫正...

2018-01-31 17:07:55

阅读数:753

评论数:0

Gradient Tree Boosting:梯度提升树详解

理论 数学推导请参考《统计机器学习》-李航,或者参考sklearn的官方文档,下面是我的部分笔记,也可以作为参考 优缺点 GBRT是对任意的可微损失函数的提升算法的泛化,即可回归亦可分(sai)类(ting)。 优点: 1. 对混合数据的的天然处理能力 2. 强大的预测...

2018-01-26 22:02:09

阅读数:1165

评论数:0

集成算法中的Bagging

Bagging meta-estimator 基本描述 在集成算法中,bagging 方法会在原始训练集的随机子集上构建一类黑盒估计器的多个实例,然后把这些估计器的预测结果结合起来形成最终的预测结果。 该方法通过在构建模型的过程中引入随机性,来减少基估计器的方差(例如,决策树)。 在多数情...

2018-01-16 14:16:10

阅读数:1135

评论数:0

RandomForest:随机森林

随机森林:RF 随机森林是一种一决策树为基学习器的Bagging算法,但是不同之处在于RF决策树的训练过程中还加入了随机属性选择(特征上的子采样) 传统的决策树在选择划分的属性时,会选择最优属性 RF 首先,从该节点的属性中损及选择出K个属性组成一个随机子集(类也就是Bagging中的Ra...

2018-01-16 14:07:02

阅读数:964

评论数:0

Feature selection using SelectFromModel

SelectFromModel sklearn在Feature selection模块中内置了一个SelectFromModel,该模型可以通过Model本身给出的指标对特征进行选择,其作用与其名字高度一致,select (feature) from model。 SelectFromMode...

2018-01-15 15:17:55

阅读数:992

评论数:0

递归式特征消除:Recursive feature elimination

简述 特征的选取方式一共有三种,在sklearn实现了的包裹式(wrapper)特诊选取只有两个递归式特征消除的方法,如下: recursive feature elimination ( RFE )通过学习器返回的 coef_ 属性 或者 feature_importances_ 属性来获...

2018-01-08 16:57:31

阅读数:3215

评论数:0

单变量特征选择:Univariate feature selection

sklearn中的单变量特征选择 单变量的特征选择是通过基于一些单变量的统计度量方法来选择最好的特征,比如卡方检测等。Scikit-learn 将单变量特征选择的学习器作为实现了 transform方法的对象: sklearn中实现的方法有: SelectKBest 保留评分最高的 K 个...

2018-01-07 20:56:44

阅读数:846

评论数:0

方差过滤: Removing features with low variance

方差特征选择的原理与使用 VarianceThreshold 是特征选择的一个简单基本方法,其原理在于–底方差的特征的预测效果往往不好。而VarianceThreshold会移除所有那些方差不满足一些阈值的特征。默认情况下,它将会移除所有的零方差特征,即那些在所有的样本上的取值均不变的特征。 ...

2018-01-07 20:54:18

阅读数:402

评论数:0

auto-sklearn简介

auto-sklearn是什么?auto-sklearn是一个自动化机器学习的工具包,其基于sklearn编写. >>> import autosklearn.classification >>> cls = autosklearn.classif...

2017-12-12 19:47:05

阅读数:1469

评论数:0

auto-sklearn手册

手册本手册从几个方面说明了如何使用auto-sklearn。并且 尽可能引用的例子来解释某些配置。官网首页.官网中文翻译例子auto-sklearn 下面的例子演示几个 方面的用法,他们都位于github: Holdout 交叉验证 并行计算 按照时序使用 回归 连续和分类数据 使用自定义指标 时...

2017-12-12 19:44:53

阅读数:1591

评论数:0

Intel MKL FATAL ERROR: Cannot load libmkl_avx2.so or libmkl_def.so.

之前在运行一个文件时,发生了这个问题,排查了一下是wineModel = LassoCV(cv=10).fit(X, Y) 这行代码组成的.Intel MKL FATAL ERROR: Cannot load libmkl_avx2.so or libmkl_def.so. 英特尔MKL致命错误...

2017-09-23 15:23:45

阅读数:667

评论数:0

Python 中文分词 NLPIR 快速搭建

前述本篇文章写完需要半个小时,阅读需要十分钟,读完后,你将学会在Python中使用NLPIR,以及关于使用它的一些有用的基础知识 NLPIR 是中科院的汉语分词系统,在Python中使用也比较广泛,而且曾多次夺得汉语分词比赛的冠军,并且其可以在多个语言上都实现了接口甚至在Hadoop中也可以使用...

2017-06-05 23:03:58

阅读数:3056

评论数:0

CSDNmarkdown编辑器直接写代码的小效果(一生愿)

今日言 (作者:吾 )一剑敢挡百万师, 十年自强颍水阳. 鸾羽纵然有时铩, 龙性难训待华堂. 豪气壮吾豪气自春秋 剑胆侠心肠待吾善吾身兼济美名扬

2016-08-29 23:53:16

阅读数:1659

评论数:0

完全卸载oracle11g教程、Oracle11g的卸载方法和步骤

原文地址:完全卸载oracle11g教程、Oracle11g的卸载方法和步骤 Oracle 11g是甲骨文公司在2007年年7月12日推出的最新数据库软件,Oracle 11g有400多项功能,经过了1500万个小时的测试,开发工作量达到了3.6万人/月。 1、如果数据库配置了自动存储...

2016-07-29 22:11:37

阅读数:3218

评论数:0

JAVA_OA管理系统(三)番外篇:Myeclipse导入Spring源码包

世界上只有10种程序员,看源码的和不看源码的: 今天,我们要看源码: 首先先用Ctrl键随便找个spring或者中的类,(其实myeclipse和eclipse导入源码包都是一样的)第二步:然后是最后一步:over!

2016-06-18 10:08:45

阅读数:1513

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭