Machine Learning
文章平均质量分 71
Lawe
有问题可以直接评论,欢迎指正
展开
-
【Machine Learning】特征工程之独热编码(One-hot Encoding)
一、独热编码 当我们在机器学习做特征工程时,如果某个categorical特征具有多个符号值,则不可能对具有这种特征的数据进行训练,而独热编码是解决这个问题的一种方法。比如我们有一个特征是protocol_type有三个值:tcp,udp,icmp,那么我们可以将三个名为tcp,udp,icmp的列追加到数据中,以表示protocol_type的值。最后,从数据中删除protoc原创 2017-06-15 22:33:56 · 1732 阅读 · 0 评论 -
【Machine Learning】通过网格搜索进行调参
在我们日常的进行超参数优化工作时,可以手动去试,也可以使用随机搜索、批量随机搜索和网格搜索等方法调到好的参数,关于网格搜索,sklearn中GridSearchCV用于系统地遍历多种参数组合,通过交叉验证确定最佳效果参数。一、参数简介 ①estimator:所使用的分类器,如estimator=RandomForestClassifier(njobs=-1),n_jobs为原创 2017-06-15 19:26:21 · 5973 阅读 · 1 评论 -
【Machine Learning】使用随机森林进行特征选择
一、特征选择 在我们做特征工程时,当我们提取完特征后,可能存在并不是所有的特征都能分类起到作用的问题,这个时候就需要使用特征选择的方法选出相对重要的特征用于构建分类器。此外,使用特征选择这一步骤也大大减少了训练的时间,而且模型的拟合能力也不会出现很大的降低问题。 在特征选择的许多方法中,我们可以使用随机森林模型中的特征重要属性来筛选特征,并得到其与分类的相关性。原创 2017-06-19 21:38:51 · 21217 阅读 · 7 评论 -
【Machine Learning】特征工程之合并稀疏特征
一、稀疏特征 在我们做特征工程的时候,可能会碰到一个特征我们假设其特征列的符号值为v,其特征存在多种取值,标签label设为y,特征v如果有很多特征值对应标签y是相同的,那么这些v之间是没有意义的,我们称之为稀疏特征。这个时候我们可以进行合并稀疏特征,因为合并稀疏特征不仅可以降低计算成本,它也最小化了样品错误分类的可能性。二、代码示例# -*- cod原创 2017-06-19 21:08:40 · 2568 阅读 · 0 评论 -
【Machine Learning】线性判别分析Python实现(LDA)
本次主要考虑在给定的两类各5000*57样例中,每类中随机抽取1000个样例进行LDA训练,最后拿剩下的样例进行测试,最后输出错误率。关于线性判别分析的原理和推导可见【meachine learning】线性判别分析(LDA),下面给出具体的代码实现。# -*- coding: utf-8 -*-from numpy import *import csvfrom matplotlib原创 2016-10-01 20:18:43 · 4519 阅读 · 1 评论 -
【Machine Learning】线性判别分析(LDA)
LDA的全称是Linear Discriminant Analysis(线性判别分析),是一种supervised learning,在二分类问题上最早由Fisher提出,所以也叫“Fisher判别分析”。 LDA的原理是:对于给定的训练集,设法将样例投影到一条直线上,使得同类的投影点尽可能接近,异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影原创 2016-10-01 18:40:08 · 1822 阅读 · 0 评论 -
【Machine Learning】对数几率(logistic)回归
这几天做了一个小作业,采用对数回归的方法进给定数集进行训练后再测试,我用的是机器学习实战中介绍的随机梯度上升的办法训练,由于接触机器学习和Python不久,这个主要是为了记录自己的学习之路,希望慢慢的从中得到进步。一、实验原理 对于二分类任务,其输出标记0和1,但是线性回归模型中产生的预测z,因而需要将实值z转换为0/1值。在数学上正好有这样一个替代函数(Sigmoid函数)原创 2016-09-30 22:04:23 · 4390 阅读 · 0 评论 -
【Machine Learning】模型融合之Stacking
Stacking(stacked generalization)是在大数据竞赛中不可缺少的武器,其指训练一个用于组合(combine)其他多个不同模型的模型,具体是说首先我们使用不同的算法或者其他方法能够训练出多个不同的模型,然后将这些模型的输出作为新的数据集,即将这些训练的模型的输出再作为为输入训练一个模型,最后得到一个最终的输出,下图为Stacking的大致流程图原创 2017-11-19 12:41:29 · 6343 阅读 · 1 评论