机器学习实验
文章平均质量分 95
该专栏主要就机器学习的常用算法和如何应用进行介绍和学习
JasonDing1354
关注jasonding.top
展开
-
【scikit-learn】评估分类器性能的度量,像混淆矩阵、ROC、AUC等
内容概要¶模型评估的目的及一般评估流程分类准确率的用处及其限制混淆矩阵(confusion matrix)是如何表示一个分类器的性能混淆矩阵中的度量是如何计算的通过改变分类阈值来调整分类器性能ROC曲线的用处曲线下面积(Area Under the Curve, AUC)与分类准确率的不同1. 回顾¶模型评估可以用于在不同的模型类型、调节参数、特征组合中选择原创 2016-01-22 15:57:39 · 26879 阅读 · 0 评论 -
【scikit-learn】网格搜索来进行高效的参数调优
内容概要¶如何使用K折交叉验证来搜索最优调节参数如何让搜索参数的流程更加高效如何一次性的搜索多个调节参数在进行真正的预测之前,如何对调节参数进行处理如何削减该过程的计算代价1. K折交叉验证回顾¶交叉验证的过程选择K的值(一般是10),将数据集分成K等份使用其中的K-1份数据作为训练数据,另外一份数据作为测试数据,进行模型的训练使用一种度量测度来衡量原创 2016-01-22 15:56:15 · 46749 阅读 · 7 评论 -
【scikit-learn】交叉验证及其用于参数选择、模型选择、特征选择的例子
内容概要¶训练集/测试集分割用于模型验证的缺点K折交叉验证是如何克服之前的不足交叉验证如何用于选择调节参数、选择模型、选择特征改善交叉验证1. 模型验证回顾¶进行模型验证的一个重要目的是要选出一个最合适的模型,对于监督学习而言,我们希望模型对于未知数据的泛化能力强,所以就需要模型验证这一过程来体现不同的模型对于未知数据的表现效果。最先我们用训练准确度(用原创 2016-01-22 15:54:56 · 61887 阅读 · 21 评论 -
【scikit-learn】scikit-learn的线性回归模型
内容概要如何使用pandas读入数据如何使用seaborn进行数据的可视化scikit-learn的线性回归模型和使用方法线性回归模型的评估测度特征选择的方法作为有监督学习,分类问题是预测类别结果,而回归问题是预测一个连续的结果。1. 使用pandas来读取数据Pandas是一个用于数据原创 2015-06-03 09:21:38 · 25901 阅读 · 1 评论 -
【scikit-learn】如何进行模型参数的选择
内容概要这一节我们介绍以下几个内容:我们该怎样选择模型用于监督学习任务?我们该如何选择调整得到最好的模型参数?我们该如何对测试数据进行预测估计?1. 使用整个数据集进行训练和测试这里我们使用手中的整个数据集来训练模型使用同样的数据集来测试模型,然后评估预测的结果和真实结果的差别In [1]:fr原创 2015-05-29 18:54:19 · 8723 阅读 · 2 评论 -
【机器学习实验】使用朴素贝叶斯进行文本的分类
引言朴素贝叶斯由贝叶斯定理延伸而来的简单而强大的概率模型,它根据每个特征的概率确定一个对象属于某一类别的概率。该方法基于一个假设,所有特征需要相互独立,即任一特征的值和其他特征的值没有关联关系。 虽然这种条件独立的假设在许多应用领域未必能很好满足,甚至是不成立的。但这种简化的贝叶斯分类器在许多实际应用中还是得到了较好的分类精度。训练模型的过程可以看作是对相关条件概率的计算,它可以用统计对应某一类别原创 2015-05-03 23:34:23 · 10411 阅读 · 2 评论 -
【Kaggle】用随机森林分类算法解决Biologial Response问题
Kaggle搞起来Kaggle比赛多依靠机器来自动处理,机器学习几乎是必须要的技能。开始搞Kaggle需要的机器学习技能并不深入,只是需要对于机器学习的常见几个方法有基本了解即可,比如说对于一个问题,你可以认识到它是个classification的问题啊还是regression的问题啊,为什么机器可以根据你输入的一个矩阵来算出来分类结果啊。 其实有时候真的在于是不是愿意踏出那一步,一旦踏出了那一步翻译 2015-04-19 10:32:56 · 3737 阅读 · 0 评论 -
【机器学习实验】scikit-learn的主要模块和基本使用
引言对于一些开始搞机器学习算法有害怕下手的小朋友,该如何快速入门,这让人挺挣扎的。 在从事数据科学的人中,最常用的工具就是R和Python了,每个工具都有其利弊,但是Python在各方面都相对胜出一些,这是因为scikit-learn库实现了很多机器学习算法。加载数据(Data Loading)我们假设输入时一个特征矩阵或者csv文件。 首先,数据应该被载入内存中。 scikit-learn的翻译 2015-04-19 10:36:35 · 10151 阅读 · 0 评论 -
【机器学习实验】概率编程及贝叶斯方法
引言贝叶斯方法是天生用来做推断的方法,然而它常隐藏在课本的数学分析的背后。 随着近年来贝叶斯方法在机器学习竞赛中成功应用,其重要性又引起了学习者的兴趣,但是其难点在于贝叶斯数学和概率编程之间的衔接。《Probabilistic Programming and Bayesian Methods for Hackers》一书试图弥补以上的遗憾。 有关概率编程和贝叶斯方法的实验,我将以该在线书籍作为学原创 2015-03-25 21:01:48 · 9800 阅读 · 1 评论 -
【机器学习实验】学习Python来分类现实世界的数据
引入一个机器可以根据照片来辨别鲜花的品种吗?在机器学习角度,这其实是一个分类问题,即机器根据不同品种鲜花的数据进行学习,使其可以对未标记的测试图片数据进行分类。 这一小节,我们还是从scikit-learn出发,理解基本的分类原则,多动手实践。Iris数据集Iris flower数据集是1936年由Sir Ronald Fisher引入的经典多维数据集,可以作为判别分析(discriminant原创 2015-03-12 16:44:08 · 2867 阅读 · 0 评论 -
【机器学习实验】用Python进行机器学习实验
概要本文是用Python编程语言来进行机器学习小实验的第一篇。主要内容如下: 读入数据并清洗数据 探索理解输入数据的特点 分析如何为学习算法呈现数据 选择正确的模型和学习算法 评估程序表现的准确性 读入数据 Reading the data当读入数据时,你将面临处理无效或丢失数据的问题,好的处理方式相比于精确的科学来说,更像是一种艺术。因为这部分处理适当可以适用于更多原创 2015-03-12 16:42:09 · 6538 阅读 · 0 评论