机器学习
文章平均质量分 67
木水_
这个作者很懒,什么都没留下…
展开
-
单一决策树与集成模型(随机森林分类器、梯度提升决策树)的比较
集成(Ensemble)分类模型综合考量多个分类器的预测结果,从而做出决策,大体可以分为两种:一种是利用相同的训练数据同时搭建多个独立的分裂模型,然后通过投票的方式,以少数服从多数的原则作出最终分类的决策,典型的有随机森林分类器(Random Forest Classifier),即在相同的训练数据上同时搭建多棵决策树(Decision Tree),每棵决策树会放弃固定的排序算法,随机选取特征原创 2017-07-20 11:33:36 · 3108 阅读 · 0 评论 -
单变量线性回归中的梯度下降法求解代价函数的最小值
1. 什么是代价函数在线性回归中我们有一个像这样的训练集,m代表了训练样本的数量,比如 m = 47。而我们的假设函数, 也就是用来进行预测的函数,是这样的线性函数形式,则代价函数可以表示为:我们绘制一个等高线图,三个坐标分别为θ0 和θ1 和 J(θ0,θ1):则可以看出在三维空间中存在一个使得 J(θ0,θ1)最小的点。代价函数也被称作平方误差函数,有时也被称为平方误差代价函数。我们之所以要求...原创 2017-07-22 13:49:15 · 3712 阅读 · 0 评论 -
感知机算法的几点总结
y语句让他家户户 任天野还让1. 感知机函数: f(x)=sign(w⋅x+b) 其实,sign是符号函数,w是权重,w·x是内积,b是偏置,w⋅x+b=0是超平面。2. 损失函数 ...原创 2017-08-25 10:34:51 · 657 阅读 · 0 评论 -
DataFrame 数据批量做线性回归
我们通常用pandas读取csv文件为DataFrame数据格式,如下图,是部分县2001年到2009年的某种作物的产量数据。我们希望求得9年的增长趋势,即求一个一元线性回归模型的斜率,这个时候便可以调用python的sklearn包中的线性回归模型计算。思路:将2001-2009年作为自变量X,需要注意的是sklearn的模型输入的变量是矩阵,因此要用numpy将list转化...原创 2018-03-12 17:40:26 · 6563 阅读 · 4 评论 -
Scikit-learn 方法使用总结
在机器学习和数据挖掘的应用中,scikit-learn是一个功能强大的python包。在数据量不是过大的情况下,可以解决大部分问题。近期在学习使用scikit-learn的过程中,我自己也在补充着机器学习和数据挖掘的知识。以下是我做一个总结的笔记。后续会结合竞赛实操。1 scikit-learn基础介绍1.1 估计器(Estimator)常直接理解成分类器,主要包含两个函数:fi...原创 2018-03-06 15:45:09 · 955 阅读 · 0 评论 -
Python 实现 KNN 分类器——手写识别
1 算法概述1.1 优劣优点:进度高,对异常值不敏感,无数据输入假定缺点:计算复杂度高,空间复杂度高应用:主要用于文本分类,相似推荐适用数据范围:数值型和标称型1.2 算法伪代码(1)计算已知类别数据集中的点与当前点的距离(2)按照距离递增次序排序,选取与当前点距离最小的 k 个点(3)确定前 k 个点所在类别的出现频率(4)返回前 k 个点出现频率最高的类...原创 2018-05-13 22:36:14 · 730 阅读 · 0 评论 -
基于CART的回归和分类任务
CART 是 classification and regression tree 的缩写,即分类与回归树。 博主之前学习的时候有用过决策树来做预测的小例子:机器学习之决策树预测——泰坦尼克号乘客数据实例,不过在那篇博客中并没有详细阐述算法的原理,本篇博客以学习 CART 里面的思想为主。1 基于 CART 的回归1.1 定义概述 CART 假设决策树是二叉树,因此回归...原创 2018-06-22 23:23:47 · 765 阅读 · 0 评论 -
生成式模型 VS 判别式模型
1 定义1.1 生成式模型 生成式模型(Generative Model)会对x和y的联合分布p(x,y)建模,然后通过贝叶斯公式来求得 p(yi|x),然后选取使得p(yi|x) 最大的 yi,即: 简单说生成式模型就是生成数据分布的模型。将求联合分布的问题转为了求类别先验概率和类别条件概率的问题。1.2 判别式模型 对条件概率 p(y|x;) ...原创 2018-07-05 17:37:35 · 1116 阅读 · 0 评论 -
集成学习概述(Bagging,RF,GBDT,Adaboost)
博主在之前的博客当中介绍过利用决策树处理回归和分类的问题(基于CART的回归和分类任务),决策树解释性好但是模型方差较大,且容易过拟合。在本篇博客中,博主打算对常用的集成学习进行介绍,主要注重模型的思想和解决的问题。1 集成学习概述1.1 主流算法 集成学习(Ensemble Learning) 在机器学习算法中具有较高的准去率,不足之处就是模型的训练过程可能比较复杂,效...原创 2018-08-12 22:09:22 · 2718 阅读 · 0 评论 -
正则化线性回归
1. 模型的欠拟合、过拟合无论是回归问题还是分类问题都可能存在模型的欠拟合和过拟合的情况。下图是回归问题中的例子:第一个模型欠拟合,第二个模型刚好拟合,第三个过拟合。下图是分类问题中的例子:第一个模型欠拟合,第二个模型刚刚好,第三个模型过拟合。对于过拟合问题,我们通常有以下方法:1. 丢弃一些不能帮助我们正确预测的特征。可以是手工选择保留哪些特征,或者使用一些模型选择的算法来帮忙(例如 PCA) ...原创 2017-07-24 20:20:50 · 1803 阅读 · 0 评论 -
逻辑回归模型及其代价函数推导
1. 逻辑回归逻辑回归,该模型的输出变量范围始终在0和1之间。 逻辑回归模型的假设是:g 代表逻辑函数(logistic function)是一个常用的逻辑函数为S形函数 (Sigmoid function),公式为:,该函数的图像为:合起来,我们得到逻辑回归模型的假设模型:,hθ(x)的作用是,对于给定的输入变量,根据选择的参数计算输出变量=1 的可能性 (estimated probablit...原创 2017-08-02 22:45:08 · 1645 阅读 · 0 评论 -
Scikit-learn 库中的数据预处理(一)
数据标准化:当单个特征的样本取值相差甚大或明显不遵从高斯正态分布时,标准化表现的效果较差。实际操作中,经常忽略特征数据的分布形状,移除每个特征均值,划分离散特征的标准差,从而等级化,进而实现数据中心化。一、标准化(Standardization),或者去除均值和方差进行缩放公式为:(X-X_mean)/X_std 计算时对每个属性/每列分别进行.将数据按其属性(按列进行)减去其均值,然...原创 2017-08-11 10:32:06 · 946 阅读 · 0 评论 -
线性回归模型之 LinearRegression 和 SGDRegressor
用美国波士顿的房价数据来介绍如何使用LR和SGDR模型进行预测 # 从sklearn.datasets导入波士顿房价数据读取器。from sklearn.datasets import load_boston# 从读取房价数据存储在变量boston中。boston = load_boston()# 输出数据描述。print (boston.DESCR) # 从sklear...原创 2017-07-20 16:49:34 · 3762 阅读 · 0 评论 -
机器学习中的特征选择——决策树模型预测泰坦尼克号乘客获救实例
在机器学习和统计学中,特征选择(英语:feature selection)也被称为变量选择、属性选择或变量子集选择。它是指:为了构建 模型而选择相关特征(即属性、指标)子集的过程。使用特征选择技术有三个原因:简化模型,使之更易于被研究人员或用户理解,缩短训练时间,改善通用性、降低过拟合(即降低方差)。本文以之前决策树预测中的泰坦尼克号数据为例,试图通过特征筛选来选择最佳的特征组合,并且提到预测...原创 2017-07-21 14:36:58 · 2339 阅读 · 0 评论 -
机器学习之线性分类器(Linear Classifiers)——肿瘤预测实例
线性分类器:一种假设特征与分类结果存在线性关系的模型。该模型通过累加计算每个维度的特征与各自权重的乘积来帮助决策。# 导入pandas与numpy工具包。import pandas as pdimport numpy as np# 创建特征列表。column_names = ['Sample code number', 'Clump Thickness', 'U原创 2017-07-18 15:56:25 · 2971 阅读 · 0 评论 -
机器学习之决策树预测——泰坦尼克号乘客数据实例
机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表某个可能的属性值,而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。 数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。从数据产生决策树的机器学习技原创 2017-07-19 10:03:50 · 7557 阅读 · 2 评论 -
天池历届大赛答辩PPT及视频
1、阿里移动推荐算法: 答辩视频:https://space.dingtalk.com/c/gQHOEnXdXw 2、资金流入流出预测: 答辩视频:https://space.dingtalk.com/c/gQHOEnXi6w 3、阿里移动推荐&资金流入流出预测答辩PPT下载: https://tianchi.shuju.aliyun.com/mini/reply.htm?spm=转载 2017-10-26 22:09:42 · 1293 阅读 · 0 评论 -
偏差(bias)和方差(variance)及其与K折交叉验证的关系
先上图:泛化误差可表示为偏差、方差和噪声之和偏差(bias):学习算法的期望预测与真实结果(train set)的偏离程度(平均预测值与真实值之差),刻画算法本身的拟合能力;方差(variance):使用同规模的不同训练集进行训练时带来的性能变化(预测值与平均预测值之差的平方的期望),刻画数据扰动带来的影响;但是这两者其实是有冲突的,这称为bias-variance trade-off。给定一个任...原创 2017-08-23 21:54:35 · 2935 阅读 · 0 评论 -
Scikit-learn 库中的数据预处理:独热编码(二)
在上一篇博客中介绍了数值型数据的预处理但是真实世界的数据集通常都含有分类型变量(categorical value)的特征。当我们讨论分类型数据时,我们不区分其取值是否有序。比如T恤尺寸是有序的,因为XL>L>M。而T恤颜色是无序的。在讲解处理分类数据的技巧之前,我们先创建一个新的DataFrame对象: import pandas as pdfrom pandas imp...原创 2017-08-14 20:51:17 · 16003 阅读 · 0 评论 -
文本数据预处理:sklearn 中 CountVectorizer、TfidfTransformer 和 TfidfVectorizer
文本数据预处理的第一步通常是进行分词,分词后会进行向量化的操作。在介绍向量化之前,我们先来了解下词袋模型。 1.词袋模型(Bag of words,简称 BoW ) 词袋模型假设我们不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重。而权重与词在文本中出现的频率有关。 词袋模型首先会进行分词,在分词之后,通过统计每个词在文本中出现的次数,我们就可以得到该文本基于词...原创 2018-03-01 14:53:24 · 42890 阅读 · 12 评论