ML机器学习
文章平均质量分 79
wangchuang2017
天下才子,中州过半
惟楚有才,于斯为盛
实事求是,知行合一
师者,所以传道,授业,解惑也
展开
-
机器学习ML
ml_codeA repository for recording machine learning code, including basic ml algorithms by using python (numpy). Also some very useful codes ofscikit-learnandtensorflow.1 basic algorithms practiceknn liner regression gradient descent demo logist...原创 2022-03-30 19:32:09 · 1707 阅读 · 0 评论 -
机器学习的分类
机器学习的分类更新时间:2021-03-12 11:02:18标签:机器学习分类说明机器学习教程正在计划编写中,欢迎大家加微信 sinbam 提供意见、建议、纠错、催更。根据训练期间接受的监督数量和监督类型,可以将机器学习分为以下四种类型:监督学习、非监督学习、半监督学习和强化学习。监督学习监督学习(Supervised Learning,SL),这类算法的工作原理是使用带标签的训练数据来学习输入变量Image转化为输出变量Image的映射函数,换句话说就是求解方程Image中的..原创 2022-03-24 22:36:14 · 2235 阅读 · 0 评论 -
鸢尾花(iris)数据集
鸢尾花(iris)数据集更新时间:2021-03-21 01:01:09标签:数据集鸢尾花说明机器学习教程正在计划编写中,欢迎大家加微信 sinbam 提供意见、建议、纠错、催更。鸢【音:yuān】尾花(Iris)是单子叶百合目花卉,是一种比较常见的花,可能不经意间你就能在某个公园里碰见它,而且鸢尾花的品种较多。它是一个很小的数据集,仅有150行,5列。该数据集的四个特征属性的取值都是数值型的,他们具有相同的量纲,不需要你做任何标准化的处理,第五列为通过前面四列所确定的鸢尾花所属..原创 2022-03-24 22:11:04 · 26141 阅读 · 0 评论 -
Pytorch深度学习
一、单选题(共20题;共100.0分)1.pytorch的前身是( )(5.0分)A.PythonB.luaC.torchD.numpy5.0分2.在选择神经网络的深度时,下面哪些参数需要考虑?1 神经网络的类型(如MLP,CNN)2 输入数据3 计算能力(硬件和软件能力决定)4 学习速率5 映射的输出函数(5.0分)A.1,2,4,5B.2,3,4,5C.都需要考虑D.1,3,4,55.0分3.当在卷积神经网络中加入池化层(pooling l..原创 2022-03-15 09:41:11 · 2963 阅读 · 0 评论 -
KNN算法介绍
KNN算法介绍KNN算法的全称是K最近邻(K-NearestNeighbor)分类算法,它是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻近值来代表。KNN是一种基于“已存储的实例”(训练集)直接进行分类任务的算法,不同于其他绝大多数分类算法,其他算法往往是首先假定分类的任务是一个未知的数学模型,然后根据训练集调整模型的参数,最后产生的模型用于进行实际的分类任务。KNN分类算法的思路非常的简单、直观,我们已知一个训练集A,A原创 2021-11-26 19:04:49 · 1357 阅读 · 0 评论 -
k-NN最近邻算法(k-nearest neighbors algorithm)
本文是一篇k-NN学习笔记,内容如下:一. k-NN简介 二. k-NN原理 三. 关于 k-NN的进一步讨论 3.1 K的大小怎么选择? 3.2 怎么计算最近“邻居”? 3.3 既然是监督学习,怎么训练? 3.4 k-NN怎么用于回归? 3.5 最后,为什么选择k-NN? 四. k-NN应用-提高约会对象匹配(python) 4.1 读文件,解析特征向量和类别标签 4.2 特征标准化 4.3 画散点图,观察特征 4.4 利用k-NN算法进行分类 ...原创 2021-10-07 19:49:25 · 5416 阅读 · 1 评论 -
各种机器学习方法的优缺点
http://www.cnblogs.com/tornadomeet/p/3395593.html朴素贝叶斯的优点: 对小规模的数据表现很好,适合多分类任务,适合增量式训练。 缺点: 对输入数据的表达形式很敏感。决策树的优点: 计算量简单,可解释性强,比较适合处理有缺失属性值的样本,能够处理不相关的特征; 缺点: 容易过拟合(后续出现了随机森林,减小了过拟合现象);Logistic回归优点: 1、实现简单; 2、分类时计算量非常小,速度很快,存..原创 2021-10-06 08:21:06 · 1143 阅读 · 0 评论 -
argmax()、max()的介绍
在开始之前先明确“行轴”和“列轴”的方向如上图。图中“行轴”索引范围为0-2,轴长为3,“列轴”索引范围0-3,轴长为4。对张量的操作import torcht = torch.tensor([[3,4,1,0],[12,1,2,3],[52,34,88,11]])t# 输出为:tensor([[ 3, 4, 1, 0], [12, 1, 2, 3], [52, 34, 88, 11]])-----------------------...原创 2021-10-03 17:10:19 · 723 阅读 · 0 评论 -
knn算法的原理与实现
张磊机器学习基础算法python代码实现可参考:zlxy9892/ml_code1 原理knn 是机器学习领域非常基础的一种算法,可解决分类或者回归问题,如果是刚开始入门学习机器学习,knn是一个非常好的入门选择,它有着便于理解,实现简单的特点,那么下面就开始介绍其算法的原理。首先,knn算法的基本法则是:相同类别的样本之间在特征空间中应当聚集在一起。如下图所示,假设我们现在红、绿、蓝三种颜色的点,分布在二维空间中,这就对应了分类任务中的训练样点包含了三个类别,且特征数量为2。如..原创 2021-10-03 14:47:26 · 1445 阅读 · 0 评论 -
梯度下降法 —— 经典的优化方法
梯度下降法 —— 经典的优化方法机器学习基础算法python代码实现可参考:zlxy9892/ml_code1 原理在机器学习的核心内容就是把数据喂给一个人工设计的模型,然后让模型自动的“学习”,从而优化模型自身的各种参数,最终使得在某一组参数下该模型能够最佳的匹配该学习任务。那么这个“学习”的过程就是机器学习算法的关键。梯度下降法就是实现该“学习”过程的一种最常见的方式,尤其是在深度学习(神经网络)模型中,BP反向传播方法的核心就是对每层的权重参数不断使用梯度下降来进行优化。梯度下降法原创 2021-10-03 11:14:52 · 363 阅读 · 0 评论 -
深度学习之梯度下降法
深度学习之梯度下降法代价函数在一开始,我们会完全随机地初始化所有的权重和偏置值。可想而知,这个网络对于给定的训练示例,会表现得非常糟糕。例如输入一个3的图像,理想状态应该是输出层3这个点最亮。可是实际情况并不是这样。这是就需定义一个代价函数。(吴恩达老师称单个样本上的代价为LossfunctionLossfunction,称为损失函数 )接下来就要考虑几万个训练样本中代价的平均值梯度下降法还得告诉它,怎么改变这些权重和偏置值,才能有进步。为了简化问题,我们先不原创 2021-10-02 18:48:56 · 156 阅读 · 0 评论 -
机器学习-第九章 聚类
机器学习-第九章 聚类D系鼎溜已关注2020.02.19 10:36:17字数 3,312阅读 3759.1 聚类任务在无监督学习任务中,包括了密度估计、异常检测以及聚类等。其中应用最广泛的是聚类。聚类就是对大量未知标注的数据集,按照数据的内在相似性将数据集划分为多个簇,使簇内的数据相似度高,两簇间的数据相似度低。聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个"簇"。 通过这样的划分,每个簇可能对应于一些潜在的概念(类别) ,如"浅色瓜" "深色瓜","有籽原创 2021-09-28 16:39:22 · 2136 阅读 · 1 评论 -
决策树 随机森林
用比较官方的话说,随机森林是一种集成算法,但实际上,可以种简单的语言描述。以随机森林分类为例随机森林的基分类器是决策树,决策树分支的方法是在所有重要特征中随机选择一个进行分支,这样随着random_state的不同,就会生长出不同的决策树,对这些决策树,随机森林采取的方法是,如果一半以上的决策树(二分类)将该向量预测为1,则随机森林预测为1,反之亦然,所以可以认为随机森林是决策树长出的一片森林只有一个医生(单一决策树)诊断病人可能发生误诊(过拟合),让多个医生(随机森林)一起进行诊断(集成),原创 2021-09-21 10:53:24 · 2412 阅读 · 0 评论 -
机器学习算法之K-近邻算法
1 KNN算法的原理KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类对应的关系。输入没有标签的数据后,将新数据中的每个特征与样本集中数据对应的特征进行比较,提取出样本集中特征最相似数据(最近邻)的分类标签。如上图所示,我们的目的是要预测某个学生在数学课上的成绩。先来说明几个基本概念:图中每个点代表一个样本(在这里是指一个学生),横纵坐标代表了特征(到课率,作业质量),不...原创 2021-08-20 14:28:13 · 168 阅读 · 0 评论 -
K近邻算法KNN的简述
什么是KNNK近邻算法又称KNN,全称是K-Nearest Neighbors算法,它是数据挖掘和机器学习中常用的学习算法,也是机器学习中最简单的分类算法之一。KNN的使用范围很广泛,在样本量足够大的前提条件之下它的准确度非常高。KNN是一种非参数的懒惰学习算法。其目的是使用一个数据库,其中数据点被分成几个类来预测新样本点的分类。简单举个例子,你搬到了一个新的社区,想和你的邻居成为朋友。你开始与邻居交往了。你决定挑选和你的思维方式,兴趣和爱好相似的邻居。在这里思维方式,兴趣和爱好都是特色。您根据兴趣原创 2021-08-20 14:27:08 · 2182 阅读 · 0 评论 -
KNN 最近邻算法(K近邻)
机器学习教程正在计划编写中,欢迎大家加微信 sinbam 提供意见、建议、纠错、催更。KNN(K-Nearest Neighbor)是机器学习入门级的分类算法,也是最为简单的算法。它实现将距离近的样本点划为同一类别,KNN 中的K指的是近邻个数,也就是最近的K个点,根据它距离最近的K个点是什么类别来判断属于哪个类别。思想原理「人以群分,物语类聚」、「近朱者赤,近墨者黑」是 KNN 的核心思想。这其实和我们在日常生活中评价一个人的方法是一样的,如果你想要知道一个人是怎么样的,那...原创 2021-08-20 14:22:36 · 4616 阅读 · 1 评论 -
KNN算法(K最近邻算法)详解
K 最近邻的核心数学知识是距离的计算和权重的计算。我们把需要预测的点作为中心点,然后计算其周围一定半径内的已知点距其的距离,挑选前 k 个点,进行投票,这 k 个点中,哪个类别的点多,该预测点就被判定属于哪一类。1. 两点间距离公式已知坐标系中有两个点,三角形坐标 (3,4) 和圆坐标 (7,7),如图 1 所示,它们的距离应该如何计算呢?我们一般使用欧式距离,即高中学到的两点间的距离公式,如图 2 所示,它的本质就是勾股定理:a2+b2=c2根据勾股定理,我们可计算两点之间的距离为 ..原创 2021-08-20 14:20:46 · 2214 阅读 · 0 评论 -
机器学习路线图解
机器学习路线图解网上收集的关于机器学习路线图,对自己的学习进行指导图片发自简书App图片发自简书App图片发自简书App图片发自简书App图片发自简书App原创 2020-12-21 11:00:21 · 260 阅读 · 0 评论 -
t-SNE algorithm(t-分布邻域嵌入算法)
参考http://qiancy.com/2016/11/12/sne-tsne/数据降维,大体分为线性方法和非线性方法。其中线性方法例如PCA和LDA,而非线性方法又有保留局部特征、基于全局特征等方法。有人整理了一张分类图,下面这张图从网上引用而来:相比于其他降维方法,t-SNE是近年比较火热的一种高维数据可视化技术,能够通过降维,将高维数据降维并给出二维或三维的坐标点,从而可以在人...原创 2019-11-15 16:49:40 · 624 阅读 · 0 评论 -
统计学原理----描述性统计
part1 概念体系描述性统计可以进行四个维度的分析:分布分析、对比分析、构成分析、相关性分析。part2 概念定义和主要用途2.1分布分析:算数平均数: 定义:数据简单加和除以数据个数 优点:考虑了每一个数据的作用 缺点:数据量小时,容易受极端值影响 应用场景: 所有权重相等的,汇总结果为加和形式的,求平均水平的场景 加权平均数: 定义:给每个数据项特定的权重,再...原创 2019-11-10 18:57:29 · 3182 阅读 · 1 评论 -
最小二乘法
最小二乘法不永远是最优的方法。对于不同数据形式和建模需求,需要能自行选择合适的建模方式。本文 会对比最小二乘法(MSE)和最小绝对值法(MAE)来比较两者的性质。两者定义我们首先来理清楚最小二乘法和最小绝对值法分别是什么。它们都是用来衡量线性回归模型效果的方式。不同的是,最小二乘法(MSE, Mean Square Error)将误差的 平方求和,而最小绝对值法(MAE, Mean...原创 2019-11-09 22:18:44 · 2539 阅读 · 0 评论 -
最小二乘法MSE 梯度下降法
为什么要比较这两种方法呢?很多人可能不知道,我先简单的介绍一下机器学习有两种,一种是监督学习,另一种是非监督学习。监督学习就是我告诉计算机你把班上同学分个类,分类标准是按照性别,男生和女生;非监督分类就是告诉计算机你自己去把班上同学分个类吧,我不告诉你分类标准。在监督学习中,如果我们面对的变量是连续型的变量就要用到回归回归其实是非常容易理解,也非常实用的一种方法,很多经济类的...原创 2019-11-09 22:09:16 · 4223 阅读 · 1 评论 -
基于癌症基因组学数据的miRNA 功能模块识别算法研究
题目:基于癌症基因组学数据的miRNA 功能模块识别算法研究摘要:大量研究表明miRNA 的异常表达与癌症的发生、发展有关,且miRNA 通常以组合的方式发挥其协同调控作用。因此,研究miRNA 组合模式有助于解读癌症的发病机理。目前已经积累的大量基因组学数据为计算生物学研究癌症提供了夯实的数据基础。同时,机器学习方法为发现数据背后的潜在生物意义提供了高效便捷的途径。本次报告就机器学习...转载 2019-08-27 18:32:43 · 428 阅读 · 0 评论 -
K-邻近算法(KNN)
1. KNN 算法原理k-近邻算法(k-Nearest Neighbour algorithm)的工作原理:给定一个已知标签类别的训练数据集,输入没有标签的新数据后,在训练数据集中找到与新数据最邻近的 k 个实例,如果这 k 个实例的多数属于某个类别,那么新数据就属于这个类别。即由那些离新数据最近的 k 个实例来投票决定新数据归为哪一类。最邻近分类算法是数据挖掘分类(classificat...转载 2019-08-12 21:01:37 · 13186 阅读 · 0 评论 -
神经网络
简述神经网络的基本特征和基本功能答:基本特征:(A)非线性,人工神经网络处于激活状态或者抑制状态,变现出非线性的特征,可以提高容错性和存储容量(B)非局限性,一个神经网络可以由多个神经网络构成,一个系统不仅取决于单个神经网络特点,还取决于单元之间的相互作用。(C)非常定性,神经网络可以自适应,自组织,自学习,处理信息的有各种变化的同时,系统自身也在变化。(D)非凸性,一个系统的演化方向,在一定条...原创 2018-07-18 20:34:02 · 891 阅读 · 0 评论