ML
暮雪成冰
这个作者很懒,什么都没留下…
展开
-
机器学习数据预处理——标准化/归一化方法
通常,在Data Science中,预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明,主要把各个标准化方法的应用场景以及优缺点总结概括,以来充当笔记。首先,我要引用我自己的文章Feature Preprocessing on Kaggle里面关于Scaling的描述Tree-based models doesn’t depend on sca...转载 2019-06-18 23:06:38 · 1222 阅读 · 0 评论 -
疑问:数据清洗过程中的“归一化”、“标准化”等等去量纲的操作应该在数据集划分前还是在数据集划分后?
问:如题。找到的相关解答:应该数据集划分后,不然测试集里面实际上是包含了训练集的信息的,这会影响模型的测试效果。但其实当样本量足够大的时候,随机划分的训练集和测试集其实是有相同的分布的,所以理论上是可以忽略上面说到的东西的。 作者:like_red来源:CSDN原文:https://blog.csdn.ne...转载 2019-06-26 22:14:27 · 1737 阅读 · 0 评论 -
机器学习:查准率(Precision)和查全率(Recall)
类偏斜(skewed classes)情况表现为我们的训练集中有非常多的同一种类的实例,只有很少或没有其他类的实例。例如我们希望用算法来预测癌症是否是恶性的,在我们的训练集中,只有 0.5%的实例是恶性肿瘤。假设我们编写一个非学习而来的算法,在所有情况下都预测肿瘤是良性的,那么误差只有 0.5%。然而我们通过训练而得到的神经网络算法却有 1%的误差。这时,误差的大小是不能视为评判算法效果的依...转载 2019-06-18 11:24:38 · 681 阅读 · 0 评论 -
Confusion Matrix
Confusion Matrix在机器学习领域,混淆矩阵(confusion matrix),又称为可能性表格或是错误矩阵。它是一种特定的矩阵用来呈现算法性能的可视化效果,通常是监督学习(非监督学习,通常用匹配矩阵:matching matrix)。其每一列代表预测值,每一行代表的是实际的类别。这个名字来源于它可以非常容易的表明多个类别是否有混淆(也就是一个class被预测成另一个class)...转载 2019-06-18 12:06:04 · 281 阅读 · 0 评论 -
一定要记住算法细节和代码 sklearn实现SVC算法
支持向量机(Support Vector Machine)指的是一系列机器学习方法,这类方法的基础是支持向量算法。SVM算法的基本原理是寻找一个能够区分两类的超平面(hyper plane),使得边际(margin)最大。所有座落在两边边际超平面上的点就被称为支持向量(Support Vector)。SVM算法既可用于回归问题,比如SVR(Support Vector Regression,...转载 2019-06-26 10:54:14 · 334 阅读 · 0 评论 -
GMM 模型需不需归一化问题
工作中遇到的问题:在GMM模型中添加一维scale比较大的特征,需不需要归一化答案:不需要,推导如下:转载 2019-06-26 12:13:06 · 798 阅读 · 0 评论 -
机器学习-决策树
机器学习-决策树一、决策树 决策树是一种简单高效并且具有强解释性的模型,广泛应用于数据分析领域。其本质是一颗由多个判断节点组成的树,在使用模型进行预测时,根据输入参数依次在各个判断节点进行判断游走,最后到叶子节点即为预测结果。 在数据挖掘中,决策树主要有两种类型: 分类树的输出是样本的类标。 回归树的输出是一个实数 (例如房子的价格,病人呆在医院的时间等)。 术语...转载 2019-06-18 18:20:30 · 329 阅读 · 0 评论 -
pandas中利用get_dummies()进行独热编码(One-Hot encoding)
在机器学习分类任务中,经常存在一个特征有多个分类变量值,例如在kaggle中的Titanic比赛数据中,Embarked的值有S,C,Q。我们这个时候要对离散型数据进行onehot编码处理,至于onehot编码的优点以及为什么要用onehot编码?可以参考这篇博文:数据预处理:独热编码(One-Hot Encoding)一、onehot的优点 onehot编码的优点可以总结如...转载 2019-06-18 18:59:56 · 1111 阅读 · 0 评论 -
【Machine Learning】如何处理机器学习中的非均衡数据集?
https://www.cnblogs.com/rgvb178/p/9520485.html【Machine Learning】如何处理机器学习中的非均衡数据集?...转载 2019-06-26 15:15:53 · 1031 阅读 · 0 评论 -
机器学习 非均衡分类问题
https://blog.csdn.net/power0405hf/article/details/45798245https://www.cnblogs.com/tonglin0325/p/6198283.html转载 2019-06-26 15:25:38 · 168 阅读 · 0 评论 -
python3将本地JSON数据文件(大文件)写入MySQL数据库
https://blog.csdn.net/layman2016/article/details/79252499最近导师给了一个yelp上的评论数据,数据量达到3.55个G,如果进行分析时直...转载 2019-06-27 13:25:04 · 1811 阅读 · 0 评论 -
存储分类器
https://www.jianshu.com/p/3b3dc674145b转载 2019-06-25 01:03:36 · 102 阅读 · 0 评论 -
机器学习——几种分类算法的汇总
https://www.cnblogs.com/Zhi-Z/p/8912396.html转载 2019-06-25 01:03:45 · 17109 阅读 · 0 评论 -
随机森林
https://baike.baidu.com/item/%E9%9A%8F%E6%9C%BA%E6%A3%AE%E6%9E%97/1974765?fr=aladdin转载 2019-06-25 01:03:53 · 294 阅读 · 0 评论 -
一定要记住细节和代码 机器学习-实战-入门-linearSVC和SVC,身高体重与胖瘦关系的分类与预测
作者:橘子派声明:版权所有,转载请注明出处,谢谢。源码地址:https://github.com/sileixinhua/Python_sklearn_svm_linearSVC_SVC实验环境:Windows10SublimeAnaconda 1.6.0Python3.6根据现有身高和体重训练模型,再对测试集做出判断代码功能一.根据现有数...转载 2019-06-25 16:09:46 · 1234 阅读 · 0 评论 -
sklearn实现SVC算法
支持向量机(Support Vector Machine)指的是一系列机器学习方法,这类方法的基础是支持向量算法。SVM算法的基本原理是寻找一个能够区分两类的超平面(hyper plane),使得边际(margin)最大。所有座落在两边边际超平面上的点就被称为支持向量(Support Vector)。SVM算法既可用于回归问题,比如SVR(Support Vector Regression,...转载 2019-06-25 16:02:41 · 1993 阅读 · 0 评论 -
随机森林分类器(Random Forest)
随机森林分类器(Random Forest)阅读目录1 什么是随机森林? 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 5 袋外错误率(oob error) 6 随机森林工作原理解释的一个简单例子 7 随机森林的Python实现 8 参考内容回到顶部1 什么是随机森林? 作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random F...转载 2019-06-19 12:59:06 · 22554 阅读 · 3 评论 -
模型参数选择方法——GridSearch网格搜索
在日常模型训练过程中,模型有多种选择,模型的参数同样也有多种选择,如何根据同一批数据选出最适合的模型和参数呢?一般情况下,模型还比较好选择,是选用机器学习中分类模型例如 LR、SVM或XGBoost等,还是使用深度学习模型CNN、LSTM等。但是参数的选择就让人很头疼,每个模型都有一堆参数,参数值又有许多,如何不费人力而费机器的选择模型参数呢,我今天看到了一种方法叫做:GridSearch,叫...转载 2019-06-19 13:18:07 · 960 阅读 · 0 评论 -
分类器的准确度评估方法
1 影响一个分类器错误率的因素 (1)、训练集的记录数量。生成器要利用训练集进行学习,因而训练集越大,分类器也就越可靠。然而,训练集越大,生成器构造分类器的时间也就越长。错误率改善情况随训练集规模的增大而降低。 (2)、属性的数目。更多的属性数目对于生成器而言意味着要计算更多的组合,使得生成器难度增大,需要的时间也更长。有时随机的关系会将生成器引入歧途,结果可能构造出不够准确的分类器(这在...转载 2019-06-19 13:48:04 · 2828 阅读 · 0 评论 -
使用sklearn的cross_val_score进行交叉验证
版权声明:本文为博主原创文章,转载请附上此地址。 https://blog.csdn.net/qq_36523839/article/details/80707678在构建模型时,调参是极为重要的一个步骤,因为只有选择最佳的参数才能构建一个最优的模型。但是应该如何确定参数的值呢?所以这里记录一下选择参数的方法,以便后期复习以及分享。我知道的有两种方法:1、通过经常使用某个模型的经验和高超的...转载 2019-06-19 14:54:49 · 2067 阅读 · 1 评论 -
随机森林 n_estimators参数 max_features参数
随机森林随机森林本质上是许多以不同方式过拟合的决策树的集合,我们可以对这些互不相同的树的结果取平均值来降低过拟合,这样既能减少过拟合又能保持树的预测能力。随机森林可用于回归或分类,通过sklearn.ensemble的RandomForestRegressor模块(回归)或RandomForestClassifier模块(分类)调用。构造随机森林的步骤:①确定用于构造的树的个数②对...转载 2019-06-19 14:55:45 · 69860 阅读 · 5 评论 -
机器学习评价指标 ROC与AUC 的理解和python实现
https://blog.csdn.net/qq_20011607/article/details/81712811转载 2019-06-19 16:45:53 · 327 阅读 · 0 评论 -
使用PCA对特征数据进行降维
使用PCA对特征数据进行降维2017年3月9日BY蓝鲸1 COMMENTPCA(Principal Component Analysis)是机器学习中对数据进行降维的一种方法。主要目的是在不丢失原有数据信息的情况下降低机器学习算法的复杂度,及资源消耗。本篇文章将使用python对特征进行降维。PCA通过线性变换将原始数据中可能相关的数据转换为一组线性不相关的数据。以本篇文章中...转载 2019-06-19 20:38:08 · 1536 阅读 · 0 评论 -
entropy信息熵
https://blog.csdn.net/zhaojc1995/article/details/80517739转载 2019-06-20 11:58:51 · 254 阅读 · 0 评论 -
不纯度值 节点取值
https://www.cnblogs.com/hsydj/p/5853954.html转载 2019-06-20 11:58:43 · 725 阅读 · 0 评论 -
GMM算法
https://www.jianshu.com/p/f3dbec8a5c43转载 2019-06-25 09:47:58 · 601 阅读 · 0 评论 -
GMM和K-means直观对比
GMM和K-means直观对比最后我们比较GMM和K-means两个算法的步骤。GMM:先计算所有数据对每个分模型的响应度 根据响应度计算每个分模型的参数 迭代K-means:先计算所有数据对于K个点的距离,取距离最近的点作为自己所属于的类 根据上一步的类别划分更新点的位置(点的位置就可以看做是模型参数) 迭代可以看出GMM和K-means还是有很大的相同点的。...转载 2019-06-25 01:34:06 · 3624 阅读 · 0 评论