机器学习
文章平均质量分 81
机器学习项目实战
beyond谚语
你只管努力,剩下的交给天意。
展开
-
数据集划分——train_test_split函数使用说明
当我们拿到数据集时,首先需要对数据集进行划分训练集和测试集,sklearn提供了相应的函数供我们使用。原创 2023-09-30 18:21:12 · 3322 阅读 · 1 评论 -
验证曲线(validation_curve)项目实战
validation_curve验证曲线,可确定不同参数值下的训练和测试分数根据指定参数的不同值计算估计器的得分这与使用一个参数的网格搜索类似。不过,这也会计算训练得分,只是一个用于绘制结果的工具。原创 2023-10-01 21:28:47 · 549 阅读 · 0 评论 -
K折交叉验证——cross_val_score函数使用说明
正常情况下,在数据集划分阶段,通常会划分为训练集trainset和测试集testset,在数据集数量足够多的情况下进行划分,效果较好。但是,对于数据集特别少的情况下,直接划分为训练集和测试集进行训练,模型的效果可能不太好,此时便引入了交叉验证。交叉验证Cross-validation思想很简单,就是对划分好的训练集再进行划分,分为训练集trainset和验证集validset。原创 2023-10-01 15:49:56 · 6768 阅读 · 0 评论 -
No module named ‘tensorflow.examples‘解决方案
No module named ‘tensorflow.examples‘解决方案原创 2022-05-23 10:41:19 · 2133 阅读 · 0 评论 -
十五、聚类的评估
一、Given Label均一性homogeneity:一个簇中只包含一个类别样本,Precision完整性completeness:同类别样本被归到同一个簇中,Recall将均一性h和完整性c进行结合(二者加权平均)得到V-Measure,,β为权重 代码实现from sklearn import metricsif __name__ == "__main__": y = [0, 0, 0, 1, 1, 1]#正确的分类 y_hat = [0, 0, 1, 1, 2, 2原创 2022-05-21 16:42:17 · 501 阅读 · 0 评论 -
十四、聚类实战——图片压缩
from PIL import Imageimport numpy as npfrom sklearn.cluster import KMeansimport matplotlibimport matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d import Axes3Ddef restore_image(cb, cluster, shape): row, col, dummy = shape image = np.empty(原创 2022-05-21 14:12:47 · 380 阅读 · 0 评论 -
十三、聚类算法
一、聚类聚类是一种无监督的机器学习任务,可以自动将数据划分为类cluster,因此聚类分组不需要提前被告知所划分的组应该是什么样子的。因为我们甚至可能都不知道我们在寻找什么,所以聚类是用于知识发现而不是预测。聚类原则是一个组内的记录彼此必须非常相似,而与该组之外的记录截然不同,所有聚类做的就是遍历所有的数据然后找到这些相似性。二、K-Means(均值)①选择K个初始的簇中心,该点可以是随机的,也可以是人为的②某一个样本和某一个聚类中心的距离③计算所属聚类的样本均值②③循环往复,直到不发生任原创 2022-05-21 09:54:29 · 1366 阅读 · 0 评论 -
十二、聚类算法——相似度测量
两套学习资料都类似,可参考聚类算法实战一、聚类聚类:物以类聚,人以群分,是无监督学习中的一种。没有y,只有x,把不同的x根据相似度自动的聚成好多堆儿本质上,N个样本,映射到K个簇中,每个簇中至少含有一个样本,一个样本只属于一个簇最基本:先给定一个初始划分,迭代改变样本和簇的隶属关系,每次都比前一次好二、相似度用于场景Ⅰ,系统推荐两点在二维空间距离公式:两点在三维空间距离公式:闵可夫斯基距离公式:当p=2时,即为欧氏距离;当p=1时,即为曼哈顿距离(Block Distance);当p趋原创 2022-05-20 18:31:53 · 1829 阅读 · 0 评论 -
十一、决策树和随机森林
这门课和另一门课内容都差不多,可以参考七、决策树算法和集成算法该篇博文。一、决策树相关概念逻辑回归本质逻辑回归:线性有监督分类模型。常用求解二分类问题,要么是A类别要么是B类别,一般会以0.5作为划分阈值,因为一般逻辑回归的激活函数使用的是sigmoid函数例如:一条数据中有六个特征逻辑回归会将0.5作为划分的阈值,例如:化简可得:其实这也就找到了一条分界线,这里只考虑两个维度,x1和x2。逻辑回归的本质就是靠这条直线来对数据进行划分成多个类别例如:通过逻辑回归进行二分类任务,数据原创 2022-05-08 18:44:28 · 1516 阅读 · 0 评论 -
十、评估指标
一、K折交叉验证一般情况,我们得到一份数据集,会分为两类,一类是trainset训练集,另一类十testset测试集。通俗一点也就是训练集相当于平常的练习册,直接去刷题;测试集就是高考,只有一次!而且还没见过。但是一味的刷题真的好吗?这是,交叉验证(Cross-validation)出现了,也成为CV,啥意思呢?就是将训练集再进行划分为trainset训练集和validset验证集,验证集去充当期末考试,这是不是就合理多了。例如:1000份数据,原本是200测试集、800训练集;当交叉验证引进之后就变原创 2022-05-08 15:42:52 · 548 阅读 · 0 评论 -
九、逻辑回归多分类和softmax多分类
一、逻辑回归多分类假设激活函数使用的是sigmoid函数二、softmax多分类原创 2022-05-08 14:38:31 · 984 阅读 · 0 评论 -
八、神经网络
一、为啥要有神经网络?在前面的几篇博客中,很容易知道我们处理的都是线性的数据,例如:线性回归和逻辑回归,都是线性的算法但是,实际上日常生活中所遇到的数据或者问题绝大多数还是非线性的一般面对非线性数据,我们可以采用多项式回归进行处理,详细内容可以参考博文:五、线性回归和多项式回归实现说白了就是改变横纵坐标,是得数据线性化。例如:工资和年龄呈抛物线关系,但是工资和年龄的平方则呈线性关系,此时就可以将年龄的平方作为变量进行线性处理。神经网络是非线性的算法!!!为啥捏?举个栗子:当你传入x1,x2原创 2022-05-05 22:07:29 · 653 阅读 · 0 评论 -
七、逻辑回归项目实战---音乐分类器
一、项目需求训练集数据为六类音乐([“classical”, “jazz”, “country”, “pop”, “rock”, “metal”]),格式为.wav,每类音乐都有100首音乐分类器项目,主要运用到了傅里叶变换函数很多东西越在高维空间处理起来就会变得越是简单例如:书本上的文字是一维,漫画图像是二维,视频是三维(加上了时间维度),你喜欢看书还是看图画书还是看电影?很显然,视频更容易让人们所接受一条直线,你从正面看是一条直线,当你从侧面看时,则变成了一个点,这就是观察方向的不同导致的结原创 2022-05-05 17:50:04 · 692 阅读 · 1 评论 -
六、逻辑回归
一、何为逻辑回归逻辑回归可以简单理解为是基于多元线性回归的一种缩放。多元线性回归y的取值范围在(-∞,+∞),数据集中的x是准确的一个数值。用这样的一个数据集代入线性回归算法当中会得到一个模型。这个模型所具备的功能就是当有人给这个模型一个新的数据x的时候,模型就会给出一个预测结果y,这个预测结果也是在(-∞,+∞),因为训练集中的取值范围也是在(-∞,+∞)之间,故预测的结果也在(-∞,+∞)之间。多元线性回归:y=w0 + w1x1 + w2x2 + … + wn*xn逻辑回归就是在多元线性回原创 2022-04-29 21:26:55 · 1587 阅读 · 0 评论 -
五、线性回归和多项式回归实现
官网API一、线性回归针对的是损失函数loss factionⅠ、Lasso Regression采用L1正则,会使得w值整体偏小;w会变小从而达到降维的目的import numpy as npfrom sklearn.linear_model import Lassofrom sklearn.linear_model import SGDRegressorX = 2 * np.random.rand(100, 1)y = 4 + 3 * X + np.random.randn(100原创 2022-04-29 19:41:14 · 801 阅读 · 0 评论 -
四、梯度下降归一化操作
一、归一化Ⅰ什么是归一化?答:其实就是把数据归一到0-1之间,也就是缩放。常用的归一化操作是最大最小值归一化,公式如下:例如:1,3,5,7,9,10,其中max=10,min=1,把数据代入公式可得:0(1-1 / 10-1),2/9(3-1 / 10-1),4/9(5-1 / 10-1),2/3(7-1 / 10-1),8/9(9-1 / 10-1),1(10-1 / 10-1),这样就把1-10这些数给归一化到0-1之间了。Ⅱ为什么要做归一化?答:只要是基于梯度来进行下降求解最优解,都需原创 2022-04-25 12:33:13 · 2155 阅读 · 0 评论 -
三、梯度下降法求解最优θ值
一、得到目标函数J(θ),求解使得J(θ)最小时的θ值通过最小二乘法求目标函数最小值令偏导为0即可求解出最小的θ值,即二、判定为凸函数凸函数有需要判断方法,比如:定义、一阶条件、二阶条件等。利用正定性判定使用的是二阶条件。半正定一定是凸函数,开口朝上,半正定一定有极小值在用二阶条件进行判定的时候,需要得到Hessian矩阵,根据Hessian的正定性判定函数的凹凸性。比如Hessian矩阵半正定,函数为凸函数;Hessian矩阵正定,函数为严格凸函数Hessian矩阵:黑塞矩阵(Hess原创 2022-04-23 11:41:29 · 1981 阅读 · 0 评论 -
二、线性回归
一、回归可以拿正态分布为例,比如身高,若平均身高为1.78m,绝大多数人都是1.78m左右,超过2m的很少,低于1m的也不多。很多事情都会回归到一定的区间之内,即回归到平均值。机器学习没有完美解,只有最优解。机器学习的目的就是要以最快的速度,找到误差最小的那个最优解。二、线性回归线性:一次方关系,y=a+b*x,各点连接可以形成一条直线。线性即量与量之间按比例、呈直线的关系,在空间和时间上代表规则和光滑的运动。x是影响y的因素或维度总结起来:线性回归就是①数据y和x呈一次方关系、②数据中的原创 2022-04-22 20:28:53 · 1696 阅读 · 0 评论 -
一、机器学习概念
一、何为机器学习(Mechine Learning)?答:利用已有数据(经验),来训练某种模型,利用此模型来预测未来。机器学习是人工智能的核心Mechine Learning。例如:你和狗蛋儿7点在老槐树下集合,如何一块约去开黑,前两次狗蛋儿都7点10分才到。这两次狗蛋晚到10分钟就是经验。之后你会通过自己的经验判断,下次你会不会出发时晚10分钟,从而利用这10分钟干些有意义的事情。对于机器学习而言就是拟人。7点集合这人来说是经验,此时需要将转化为数据给计算机,人是可以通过自己的思维方式来进行做出判原创 2022-04-22 16:59:19 · 646 阅读 · 0 评论