机器学习
文章平均质量分 80
洛阳山
这个作者很懒,什么都没留下…
展开
-
如何确定PCA降维的维度
主要是对西瓜书里面的一个思路的实现,并不涉及PCA原理和公式推导,用一句话总结PCA,文章目录一、思路二、代码实现一、思路周志华老师《机器学习》P231二、代码实现主要是通过sklearn实现...原创 2021-05-27 22:10:30 · 2073 阅读 · 2 评论 -
numpy使用汇总
文章目录1、统计nan值出现次数1、统计nan值出现次数numpy 中的nan为not a number,表示一个不确定的数,所以两个nan是不相等的。可以使用count_nonzero函数实现import numpy as np data=np.array([1,2,3,np.nan])nan_num=np.count_nonzero(data!=data)print(nan_num)代码运行结果:参考自关于numpy的nan值处理...原创 2021-05-04 10:24:37 · 313 阅读 · 3 评论 -
Genetic Algorithm遗传算法整理
文章目录一、简介二、算法流程三、参数四、参考资料一、简介遗传算法(Genetic Algorithm, GA)是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法。遗传算法以一种群体中的所有个体为对象,并利用随机化技术指导对一个被编码的参数空间进行高效搜索。其中,选择、交叉和变异构成了遗传算法的遗传操作;参数编码、初始群体的设定、适应度函数的设计、遗传操作设计、控制参数设定五个要素组成了遗传算法的核心内容。二、算法流程遗传算法和自然选择的原创 2021-04-25 22:27:47 · 452 阅读 · 2 评论 -
grid search参数调优
文章目录一、简介二、代码实现三、其他一、简介之前看论文的时候,看到过grid search进行超参调优,一开始觉得应该是个比较高大上的东西,其实后来一看就是个暴力搜索。如果一个模型一共有3个参数,分别是A、B、C,假如A有3个选择,B有4个选择,C有5个选择,为了选出最好的模型,就需要一个参数一个参数试过去,从这60(3∗4∗53*4*53∗4∗5)个模型里面找出一个符合自己需求的。注意:grid search是一种调优的思路,和实现方式是没啥关系的。你既可以通过简单的for循环,也可以直接用skl原创 2021-04-24 21:07:01 · 794 阅读 · 0 评论 -
机器学习之常见的性能度量
文章目录1、简介2、性能度量总结3、参考文献1、简介本文是对论文《The Impact of Automated Parameter Optimization on Defect Prediction Models》涉及到的性能度量标准整理。最初看这篇论文的时候,被震撼了好久。从101个数据集中,选取涉及多个语言、多个领域的18个数据集,用12个性能度量讨论现有流行机器学习分类器(模型)参数优化对性能的提升效果。整个实验过程严谨,这种震撼效果直到读到这个实验室2017年的一篇论文《An Empiric原创 2020-12-23 12:53:44 · 551 阅读 · 0 评论 -
An Empirical Comparison of Model Validation Techniques for Defect Prediction Models
SummaryResearch Objective(s)Problem StatementMethod(s)EvaluationConclusionNotes(optional)References(optional)Holdout Validation(流出法)方法:直接将数据集随意分为两部分,一个只用于训练,一个只用于测试。缺点:有大量的数据没有用于训练模型;随意分割可能会产生误导性结果;为了克服这些缺点,往往会把holdout执行很多遍。Cross-Validation原创 2020-12-09 20:20:41 · 674 阅读 · 0 评论 -
NASA MDP数据集
本文内容来自于对论文《Data Quality: Some Comments on the NASA Software Defect Datasets》内容的整理,如果转载请说明。文章目录1、论文简述2、预处理的步骤3、数据集下载地址4、参考资料1、论文简述论文是defect prediction方向相关论文引用率特别高的一篇,最近在找公共数据集,就读了下,论文的基本信息可以参考[1][1][1]。在这篇论文出现之前,缺陷预测公共数据集使用次数最多的就是NASA Metrics Data Progr原创 2020-11-17 20:54:43 · 2007 阅读 · 0 评论 -
机器学习之朴素贝叶斯(含代码)
文章是机器学习笔记,转载请提前告知!文章目录1、概率论知识补充1.1 前验概率和后验概率1.2 贝叶斯定理2、朴素贝叶斯2.1 算法流程2.2 拉普拉斯平滑2.3 算法示例3、算法实现(python)3.1 代码设计3.2 算法验证1、概率论知识补充1.1 前验概率和后验概率1.2 贝叶斯定理2、朴素贝叶斯2.1 算法流程2.2 拉普拉斯平滑2.3 算法示例3、算法实现(python)3.1 代码设计代码不涉及任何数据预处理,只简单实现朴素贝叶斯。3.2 算法验证为了检验算法性能,原创 2020-11-12 09:48:49 · 3538 阅读 · 2 评论 -
使用scipy求解带约束最优化问题
在看李航老师的《统计学习方法》时,想把例7.1通过代码实现,有了这篇博客。文章目录1、求解思路2、minimize函数讲解3、参考资料1、求解思路使用scipy中的minimize函数求解最优化问题的形式如下:其中xxx是一个向量,gi(x)g_{i}(x)gi(x)是非等式约束,hj(x)h_{j}(x)hj(x)是等式约束。例7.1中的优化问题如下:刚好能够带到式子里面,下面是代码:from scipy.optimize import minimizeimport numpy a原创 2020-10-29 16:56:08 · 3846 阅读 · 0 评论 -
numpy导入数据集无法对列分割问题及解决方法
文章目录一、问题简述一、问题简述原创 2020-10-07 20:14:58 · 316 阅读 · 0 评论 -
mac下weka学习和python调用
文章目录一、weka简介二、weka安装三、常用操作1、界面初识2、特征选择(AttributeSelection)3、规范化(Normalize)4、保存结果四、python调用接口五、python代码示例六、参考文献一、weka简介Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品–Clementine )的,基于JAVA环境下开源的机器学习(machine le原创 2020-09-29 17:09:33 · 1852 阅读 · 0 评论 -
机器学习笔记--PR曲线和ROC曲线
最近在看周志华老师的机器学习,本文主要是对PR图和ROC曲线的整理。一、PR图对于二分类问题,根据分类结果能形成“混淆矩阵”。P是查准率,R是查全率,定义如下:查准率P类似于,“检索出的信息中有多少比例是用户感兴趣的”;查准率R类似于,“用户感兴趣的信息中有多少被检索出来了”;一般来说,查准率和查全率是一对矛盾的度量,书上给出的“P-R图”比较平滑,现实中局部波动较大。二、R...原创 2020-03-12 14:49:37 · 2127 阅读 · 0 评论 -
机器学习笔记--训练集、验证集和测试集区别
周志华老师的西瓜书里面主要讲了训练集和测试集,验证集提及的内容不多,为避免混淆,特此笔记。一、三者之间的区别看完西瓜书后,比较疑惑的是验证集和测试集之间的关系,验证集是测试集的一部分么?首先:训练集(training set)、验证集(validation set)和测试集(test set)本质上并无区别,都是把一个数据集分成三个部分而已,都是(feature, label)造型。主要是在...原创 2020-03-09 12:04:17 · 3698 阅读 · 0 评论