人工智能
文章平均质量分 64
Tomorrowave
人工智能专业学生,中国人工智能协会学生会员,拥有多个发明专利和软著、核心期刊论文,荣获国家级竞赛奖项(1个国一、1个国二、1个国三)以及省级,市校级奖项若干。
展开
-
机器学习——ROC、AUC、查准率、查全率、F1
错误率:有多少比例的西瓜被判断错误;查准率(precision):算法挑出来的西瓜中有多少比例是好西瓜;查全率(recall):所有的好西瓜中有多少比例被算法跳了出来。继续按照上述前提,对于二分类问题,我们根据真实类别与算法预测类别会有下面四个名词:在写下面四个名词前,需要给一些关于T(true)、F(false)、P(positive)、N(negative)的解释:P表示算法预测这个样本为1(好西瓜)、N表示算法预测这个样本为0(坏西瓜);原创 2022-09-23 15:00:47 · 721 阅读 · 0 评论 -
机器学习——交叉验证(留一法、自助法)
交叉验证是一种模型验证技术,可用于评估统计分析(模型)结果在其它独立数据集上的泛化能力。,从D1中随机挑选出一个小样本,放入新数据集D2 ,但D1的数据集总量不变.这样可以提高小数据模型的准确性。准确来说:叫擦很严重就是来来回回反复的对模型进行刷新,最后得到的模型评估结果就是这K次验证的均值。如果当我们分出来的数据子集的数目和我们交叉验证的次数一样,那么就出现了。很多时候我们都在纠结,交叉验证法到底有啥用?但是留一法在数据量较大的时候,大量的模型计算开销过于庞大。原创 2022-09-21 21:46:10 · 2948 阅读 · 0 评论 -
深度学习之反向传播算法(backward())
反向传播(英语:Backpropagation,缩写为BP)是“误差反向传播”的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见方法。信号 y 也是神经元的输出信号。的权重系数 w mn 等于计算输出值期间使用的权重系数。当计算每个神经元的误差信号时,可以修改每个神经元输入节点的权重系数。训练数据集由输入信号 ( x 1 和 x 2 ) 分配有相应的目标(期望的输出) z。在下一个算法步骤中,将网络 y 与所需的输出值(目标)进行比较,找到 在训练数据集中。翻译 2022-09-07 22:13:15 · 2372 阅读 · 0 评论 -
线性回归之随机梯度下降法(Stochastic Gradient Descent,SGD)
一个经典的例子就是假设你现在在山上,为了以最快的速度下山,且视线良好,你可以看清自己的位置以及所处位置的坡度,那么沿着坡向下走,最终你会走到山底。但是如果你被蒙上双眼,那么你则只能凭借脚踩石头的感觉判断当前位置的坡度,精确性就大大下降,有时候你认为的坡,实际上可能并不是坡,走一段时间后发现没有下山,或者曲曲折折走了好多路才能下山。原创 2022-09-06 12:32:40 · 1115 阅读 · 0 评论 -
pandas之离散化数据处理get_dummies以及填补缺失值的方法
用途在数据预处理的过程中我们经常遇到一些问题,比如说,多个离散型的数据在进行分析的过程,我们需要把离散型的数据变成一个具体的数据方便我们进行处理,很容易想到的就是整数,如果是两个对立事件我们可以很轻松的用0和1 来进行表示,这样的思考过程有利于我们的接下来的过程,当然很多机器学习学者很喜欢的独热编码也是一个道理,简单来说就是离散化数据的特征工程。当我们遇到一些差异性较为明显(人工操作一眼便能原创 2022-09-03 19:37:01 · 813 阅读 · 0 评论 -
机器学习之随机森林填补缺失值和众数填补缺失值
随机森林填补缺失值提出的一种分类算法,它通过自助法(bootstrap)重采样技术,从原始训练样本集N中有放回地重复随机抽取n个样本生成新的训练样本集合训练决策树,然后按以上步骤生成m棵决策树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。众数填补缺失值 平均数填补缺失值原创 2022-09-03 19:35:09 · 862 阅读 · 0 评论 -
机器学习之正态分布拟合
正态分布也被称为高斯分布或者钟形曲线(因为它看起来像一个钟),这是统计学中最重要的概率分布,就像我们在大自然中经常看到的那样,它有点神奇。例如,身高、体重、血压、测量误差、智商得分等都服从正态分布。原创 2022-09-03 19:24:55 · 2837 阅读 · 0 评论 -
分类中解决类别不平衡问题
在这一节中,我们一起看一下,当遇到数据类别不平衡的时候,我们该如何处理。在Python中,有Imblearn包,它就是为处理数据比例失衡而生的。直接对训练集中多数类样本进行“欠采样”(undersampling),即去除一些多数类中的样本使得正例、反例数目接近,然后再进行学习。...原创 2022-08-06 11:17:19 · 450 阅读 · 0 评论 -
机器学习:如何实现欠采样和过采样?如何安装imlearn?
如何安装imlearn?有些库版本达不到要求:imblearn需要依赖某些Python模块(下面是最新版0.7.0的依赖要求避开所有坑的方法:下的满?咋办?直接给我换个源?换源?快乐换源采样后结果[(0, 64), (1, 64), (2, 64)]随机过采样方法随机过采样是在少数类 [公式] 中随机选择一些样本,然后通过复制所选择的样本生成样本集 [公式] ,将它们添加到 [公式] 中来扩大原始数据集从而得到新的少数类集合 [公式] 。新的数据集 [公式] 。随机过采样查看结果过原创 2022-08-06 11:11:04 · 1173 阅读 · 0 评论 -
波士顿房价分析作业总结
②缺失值小于1/2的,但出现了连续型缺失,也可以认为是一大段一大段的,这种如果在前面的话,可以不用去考虑,直接作为NaN构成新样本加入样本中,如果是在中间或者后面,根据缺失量,可以考虑用均值或者是线性回归、灰度预测等抢救一下。③缺失值远小于1/2,并且是非连续的,这里就可以用一些复杂的插值,或者说用前后数的平均,众数都能填补,并且填补完可能会有一些意想不到的效果。①缺失值过大,比如说已经超过了正常值的1/2,这种就不需要考虑怎么样填补了,留着这个特征反而是加大误差,可以选择剔除。...原创 2022-07-16 23:31:26 · 943 阅读 · 0 评论 -
python 输入流 sys.stdin input()函数
#基础函数input()返回类型为字符串 但是不会再末尾加上换行符如果需要其他类型需要将字符串转化成其他类型int(str),dict(dict),list(dict)这里重点提到一个很牛的函数eval()自动推导出数据类型,似于C++里面的autoprint(eval("{'name':'linux','age':18}"))# 输出结果:{'name':'linux','age':18}'''num = input("请输入一个整数:")print(type(num)).原创 2022-03-26 18:34:30 · 2212 阅读 · 0 评论