【ML Experiments】
文章平均质量分 95
JasonDing1354
关注jasonding.top
展开
-
【Kaggle】用随机森林分类算法解决Biologial Response问题
Kaggle搞起来Kaggle比赛多依靠机器来自动处理,机器学习几乎是必须要的技能。开始搞Kaggle需要的机器学习技能并不深入,只是需要对于机器学习的常见几个方法有基本了解即可,比如说对于一个问题,你可以认识到它是个classification的问题啊还是regression的问题啊,为什么机器可以根据你输入的一个矩阵来算出来分类结果啊。 其实有时候真的在于是不是愿意踏出那一步,一旦踏出了那一步翻译 2015-04-19 10:32:56 · 3798 阅读 · 0 评论 -
【机器学习实验】scikit-learn的主要模块和基本使用
引言对于一些开始搞机器学习算法有害怕下手的小朋友,该如何快速入门,这让人挺挣扎的。 在从事数据科学的人中,最常用的工具就是R和Python了,每个工具都有其利弊,但是Python在各方面都相对胜出一些,这是因为scikit-learn库实现了很多机器学习算法。加载数据(Data Loading)我们假设输入时一个特征矩阵或者csv文件。 首先,数据应该被载入内存中。 scikit-learn的翻译 2015-04-19 10:36:35 · 10247 阅读 · 0 评论 -
【机器学习实验】使用朴素贝叶斯进行文本的分类
引言朴素贝叶斯由贝叶斯定理延伸而来的简单而强大的概率模型,它根据每个特征的概率确定一个对象属于某一类别的概率。该方法基于一个假设,所有特征需要相互独立,即任一特征的值和其他特征的值没有关联关系。 虽然这种条件独立的假设在许多应用领域未必能很好满足,甚至是不成立的。但这种简化的贝叶斯分类器在许多实际应用中还是得到了较好的分类精度。训练模型的过程可以看作是对相关条件概率的计算,它可以用统计对应某一类别原创 2015-05-03 23:34:23 · 10563 阅读 · 2 评论 -
【scikit-learn】如何进行模型参数的选择
内容概要这一节我们介绍以下几个内容:我们该怎样选择模型用于监督学习任务?我们该如何选择调整得到最好的模型参数?我们该如何对测试数据进行预测估计?1. 使用整个数据集进行训练和测试这里我们使用手中的整个数据集来训练模型使用同样的数据集来测试模型,然后评估预测的结果和真实结果的差别In [1]:fr原创 2015-05-29 18:54:19 · 8790 阅读 · 2 评论 -
【scikit-learn】scikit-learn的线性回归模型
内容概要如何使用pandas读入数据如何使用seaborn进行数据的可视化scikit-learn的线性回归模型和使用方法线性回归模型的评估测度特征选择的方法作为有监督学习,分类问题是预测类别结果,而回归问题是预测一个连续的结果。1. 使用pandas来读取数据Pandas是一个用于数据原创 2015-06-03 09:21:38 · 25964 阅读 · 1 评论 -
【scikit-learn】交叉验证及其用于参数选择、模型选择、特征选择的例子
内容概要¶训练集/测试集分割用于模型验证的缺点K折交叉验证是如何克服之前的不足交叉验证如何用于选择调节参数、选择模型、选择特征改善交叉验证1. 模型验证回顾¶进行模型验证的一个重要目的是要选出一个最合适的模型,对于监督学习而言,我们希望模型对于未知数据的泛化能力强,所以就需要模型验证这一过程来体现不同的模型对于未知数据的表现效果。最先我们用训练准确度(用原创 2016-01-22 15:54:56 · 62125 阅读 · 21 评论 -
【scikit-learn】网格搜索来进行高效的参数调优
内容概要¶如何使用K折交叉验证来搜索最优调节参数如何让搜索参数的流程更加高效如何一次性的搜索多个调节参数在进行真正的预测之前,如何对调节参数进行处理如何削减该过程的计算代价1. K折交叉验证回顾¶交叉验证的过程选择K的值(一般是10),将数据集分成K等份使用其中的K-1份数据作为训练数据,另外一份数据作为测试数据,进行模型的训练使用一种度量测度来衡量原创 2016-01-22 15:56:15 · 46841 阅读 · 7 评论 -
【scikit-learn】评估分类器性能的度量,像混淆矩阵、ROC、AUC等
内容概要¶模型评估的目的及一般评估流程分类准确率的用处及其限制混淆矩阵(confusion matrix)是如何表示一个分类器的性能混淆矩阵中的度量是如何计算的通过改变分类阈值来调整分类器性能ROC曲线的用处曲线下面积(Area Under the Curve, AUC)与分类准确率的不同1. 回顾¶模型评估可以用于在不同的模型类型、调节参数、特征组合中选择原创 2016-01-22 15:57:39 · 26952 阅读 · 0 评论