机器学习
Rp_
计算机科学与技术专业,正在学习数据挖掘方向,同时学习微服务后台内容,欢迎一起交流hhh
展开
-
机器学习 特征工程 Python sklearn
机器学习 特征工程 Python sklearn本博客代码:Github_GDUT-Rp1 特征工程数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维等。首次接触到sklearn,通常会被其丰富且方便的算法模型库吸引,但是这里的介绍的特征处理库也十分强大!2 数据预...原创 2020-02-22 14:07:46 · 763 阅读 · 1 评论 -
机器学习 信息熵 条件熵 相对熵 交叉熵 基尼系数
机器学习 度量 信息熵 相对熵 交叉熵信息熵 在信息论或概率统计中,用熵(entropy)度量随机变量的不确定性。熵值越大,随机变量的不确定性就越大。而这个东西与我们决策树有什么关系呢?其实我们就是希望决策树的分支结点所包含的样本尽可能属于同一类别,即这个结点的“纯度”越来越高,而信息熵(information entropy)是度量样本集合纯度最常用的一种指标。 设 XXX 是一个...原创 2020-02-12 21:46:15 · 885 阅读 · 0 评论 -
优化分类指标
优化分类指标介绍某些分类指标并不是完全适用我们的模型,有时候我们需要选择和优化指标来调整我们的模型。Logloss如果要优化log-loss,我们只需要将它和正确的模型匹配。树模型:XGBoost,LightGBM线性:sklearn,Regression, sklearn.SGDRegressor, Vowpa Wabbit神经网络:PyTorch, Keras, Tensorf...原创 2019-07-09 10:46:21 · 774 阅读 · 0 评论 -
机器学习 学习曲线 Python实现学习曲线及案例解析
机器学习 学习曲线 Python实现学习曲线及案例解析学习曲线如果数据集的大小为 mmm,则通过下面的流程即可画出学习曲线:把数据集分成训练数据集和交叉验证数据集。取训练数据集的 20%20\%20% 作为训练样本,训练出模型参数。使用交叉验证数据集来计算训练出来的模型的准确性。以训练数据集的准确性,交叉验证的准确性作为纵坐标,训练数据集个数作为横坐标,在坐标轴上画出上述步骤计算出来...原创 2019-08-14 21:39:09 · 7037 阅读 · 0 评论 -
Multi-view Learning 多视图学习
Multi-view LearningMulti-view Learning 定义通俗来讲,多视图就是从多个角度去学习,提高数据预测准确性~多视图中可以从多个源或不同的特征子集获得视图。These views may be obtained from multiple sources or different feature subsets.例如,一个人可以通过面部,指纹,签名或虹膜,从...原创 2019-08-15 20:33:41 · 6950 阅读 · 0 评论 -
Python SVM 手写数字识别 流程
Python SVM 手写数字识别 流程数据采集和标志scikit-learn 自带了一些数据集,其中一个是数字识别图片的数据。%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npfrom sklearn import datasetsdigits = datasets.load_digits() #...原创 2019-08-29 10:16:54 · 7619 阅读 · 7 评论 -
Python 机器学习理论基础 过拟合和欠拟合 成本函数 模型准确度
机器学习理论基础过拟合和欠拟合\qquad 过拟合是指模型能很好地拟合训练样本,但对新数据集的预测准确性很差。\qquad 欠拟合是指模型不能很好地拟合训练样本,且对新数据集的预测准确性也不好。\qquad 我们先来看个例子:%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npn_dots = 20...原创 2019-08-29 11:15:20 · 336 阅读 · 0 评论 -
Python KNN k-邻近算法 手动实现及分析 分类、回归、糖尿病预测实战
Python KNN k-邻近算法算法原理\qquad k-邻近算法的核心思想是未标记样本的类别,由距离其最近的k个邻近投票来决定。\qquad 假设,我们有一个已经标记的数据集,即已经知道了数据集中每个样本所属的类别。此外,有一个未标记的数据样本,我们的任务是预测出这个数据样本所属的类别。k-邻近算法的原理是,计算待标记的数据样本和数据集中每个样本的距离,取距离最近的k个样本。待标记的数据...原创 2019-08-29 17:13:50 · 2634 阅读 · 1 评论