Python机器学习及实践从零开始通往Kaggle竞赛之路
YYLin-AI
这个作者很懒,什么都没留下…
展开
-
Python机器学习及实践从零开始通往Kaggle竞赛之路之第二章 第一个程序比较SGD分类器和Line分类器在癌变数据集的预测效果
Python机器学习及实践从零开始通往Kaggle竞赛之路中百度云盘链接:前言:第一章主要介绍的是机器学习中相关的概念,可以自行阅读就不在介绍了。我的介绍方式主要是简单的分析书中代码,为了方便阅读并将其按照pycharm实现。本章节可以分成两个部分:第一个部分是对数据集进行分类,第二个部分是对数据集进行回归分析。代码中程序的命名的规则是:第几个程序 + 使用的模型 + 数据集,利用...原创 2019-04-09 11:01:08 · 428 阅读 · 0 评论 -
Python机器学习及实践从零开始通往Kaggle竞赛之路之第三章 实践篇
本章主要介绍的内容有:如何对数据集进行预处理,如何提取真实数据的特征、如何使用自动寻找模型中参数的最优解、选择数据集中的特征分成两步:第一步特征抽取,也即是将数据集中的样本数据转化成对应的向量。第二步特征筛选,可以人为的进行特征筛选,也可使用sklearn中自带函数自动选择样本中重要的特征。本节使用朴素贝叶斯模型预测20news新闻数据集类别,其中使用CountVectorizer和Tf...原创 2019-04-09 21:38:56 · 546 阅读 · 0 评论 -
Python机器学习及实践从零开始通往Kaggle竞赛之路之第二章 无监督学习
前言:本节开始介绍书中无监督学习的经典框架,无监督学习的作用有两个:第一个不需要数据集进行分类,而是通过算法找到数据集中每个类别数据本身的特征,并将其进行分类。第二个是对高维数据进行降维,然后使用低维数据表示原始数据,加快数据的运算速度。在无监督学习之中主要使用的几个框架有,K均值算法(K-mean)、主成分分析法(principal component analysis,PCA)、K均值算法...原创 2019-04-09 21:08:25 · 576 阅读 · 0 评论 -
Python机器学习及实践从零开始通往Kaggle竞赛之路之第二章 回归分析之多重模型之间的比较
前言:本节主要使用支持向量机的回归分析、K近邻回归分析、决策树等多种模型在波士顿房价上预测效果的比较。本节使用支持向量机的回归分析时,分别选择线性核函数、多项式核函数、径向基核函数训练数据集,在使用其他模型的时候为了方便观看,将每一个模块划分到放在一起。以后讲解每个函数中参数具体的使用方法。程序代码如下:# -*- coding: utf-8 -*-# @Time : ...原创 2019-04-09 20:09:32 · 313 阅读 · 0 评论 -
Python机器学习及实践从零开始通往Kaggle竞赛之路之第二章 回归分析之线性回归
前言:前面的几个程序主要是用于对数据集进行分类,本节开始回归分析部分的实验。回归分析是指定量的预测一堆属性和标签属性之间的关系。本部分主要使用的方法有,线性回归分析、支持向量机的回归分析、K近邻回归分析、回归树分析、以及回归分析的测评方式。(LinearRegression, 线性回归)线性回归的目标函数是找到一个最小函数使得,本节使得数据集为波士顿房价。对于回归分析效果的评价主要有三种...原创 2019-04-09 19:56:04 · 563 阅读 · 0 评论 -
Python机器学习及实践从零开始通往Kaggle竞赛之路之第二章 第六个程序比较梯度提升决策树、随机树和决策树预测泰坦尼克号幸存人数效果
前言:本节是比较三种树形结构(DecisionTreeClassifier决策树,RandomForestClassifier随机树, GradientBoostingClassifier梯度提升决策树)在泰坦尼克号上分类的效果,泰坦尼克号数据集中选择的属性仍然是'Pclass', 'Age', 'Sex',测试效果的标签为Survived。(DecisionTreeClassifier...原创 2019-04-09 19:28:56 · 249 阅读 · 0 评论 -
Python机器学习及实践从零开始通往Kaggle竞赛之路之第二章 第五个程序使用决策树预测泰坦尼克号生还人数
前言: 本节主要测试决策树(DecisionTreeClassifier) 预测泰坦尼克号生还人数, 训练时选择属性为年龄、性别和Pclass,预测的标签选择是否生还。决策树最要适用于数据集可能存在非线性关系情况下,例如按照年龄预测泰坦尼克号生还人数的话,显然年龄过小或者过大都会影响生成率较低,但是中年人生还的可能性相对较高,所以就属性对于生成概率而言其可能存在非线性关系,所以这种情况下可以尝试使...原创 2019-04-09 18:43:53 · 1635 阅读 · 0 评论 -
Python机器学习及实践从零开始通往Kaggle竞赛之路之第二章 第四个程序使用k-nearst neighbors对iris数据集进行分类
前言: 本节主要测试K最近邻(k-nearst neighbors) 对iris数据集分类的效果,K最近邻算法的思想是在样本未知的情况下,我首先选择距离测试集最近的K个样本,这K个样本中哪个类别最多,我们就选择该标签归给哪个数据集。代码的流程图是1、加载数据集,包括将数据集划分成测试集和训练集2、对数据集进行预处理,包括StandardScaler()标准化操作3、调用K近邻法,使用k...原创 2019-04-09 17:15:45 · 407 阅读 · 0 评论 -
Python机器学习及实践从零开始通往Kaggle竞赛之路之第二章 第三个程序朴素贝叶斯分类器
前言:使用朴素贝叶斯模型对数据集进行划分,前面介绍的线性分类器和支持向量机的分类器都适用于数据集能够使用线性分类器进行划分,而朴素贝叶斯考虑的是数据集中样本每个属性被划分不同数据集的概率。然后计算整体被划分不同样本的概率。后期补上代码中MultinomialNB()函数的理解。参考代码:# -*- coding: utf-8 -*-# @Time : 2019/4/8 0:...原创 2019-04-09 16:57:32 · 255 阅读 · 0 评论 -
Python机器学习及实践从零开始通往Kaggle竞赛之路之第二章 第二个程序支持向量机的分类(SVC)
前言:线性分类器训练的时候使用全部的数据集用于图像类别的划分。而支持向量机的分类器则不同,他认为仅仅小部分数据集对划分图像的类别起到作用,并设法找到这一小部分的数据用于最后的图像划分,使得划分的结果尽可能远离类别,有助于提升模型的广泛的适用性。可以看一下下面的图像。线性分类器得到的分类结果可能是一下三个线的任意一个,但是支持向量机得分类器尽力得到 w * x + b = 0的结果。...原创 2019-04-09 16:42:26 · 308 阅读 · 0 评论 -
Python机器学习及实践从零开始通往Kaggle竞赛之路之第三章 实践篇之XGBClassifier()预测
前言:本节使用随机树和XGBClassifier对泰坦尼克号生中的人是否生还进行预测。网格搜索中相关参数的以后添加。本节代码包含以下部分:第一加载数据集,并对缺失部分的数据进行填充第二使用随机树和XGBClassifier进行训练,并将预测结果保存到.csv文件之中第三使用GridSearchCV搜索最优参数的解, 其实我也不是很明白他是怎么确定参数的个数的。实验代码:...原创 2019-04-14 11:28:48 · 947 阅读 · 0 评论