Ona_Soton
码龄3年
关注
提问 私信
  • 博客:45,289
    45,289
    总访问量
  • 36
    原创
  • 1,793,688
    排名
  • 65
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2021-09-10
博客简介:

Ona_Soton的博客

查看详细资料
个人成就
  • 获得11次点赞
  • 内容获得0次评论
  • 获得105次收藏
创作历程
  • 6篇
    2022年
  • 30篇
    2021年
成就勋章
TA的专栏
  • 机器学习
    23篇
  • Python
    11篇
  • 高数
    2篇
创作活动更多

HarmonyOS开发者社区有奖征文来啦!

用文字记录下您与HarmonyOS的故事。参与活动,还有机会赢奖,快来加入我们吧!

0人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

机器学习三个核心理论

【待补充:为什么有些情况,不需要得到完整的联合概率就可以得到后验概率】ML:抽象出一个pattern模拟数据背后的model,然后根据模拟的model去做预测ML的类别:ML针对的三种任务类型:——分类任务——回归任务——排序任务(y有顺序)————多分类任务(y没有顺序)不同的损失函数其实就对应了不同的算法(每个特定的任务都有不同的损失函数),但是我们如何找到这样的函数f(损失函数中的f),在iid的条件下,我们一般是通过最小化期望风险,从期望的意义下,假设,不..
原创
发布博客 2022.01.30 ·
1626 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Bias - Variance Decomposition

偏差-方差分解定理解释了训练的数据和调控因子lamda(惩罚项里的)的作用因为机器学习的真实目标是期望风险最小化,其可以分解为三个部分Noise:像是多项式产生数据,会给原本的sinx+noise产生数据以拟合真实的数据,Bias:hx是理论上最优的f,所以偏差就是通过训练集得到的函数f和期望得到的函数差多少Variance:是指在一份训练数据上得到的函数和多份训练数据的平均之间相差多少第一行,第一个,每一条红色的线就是在一份数据上产生的结果第一行,第二、三个,.
原创
发布博客 2022.01.30 ·
976 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

LDA详解

LDA是一个生成式模型,是一个无监督模型1. 输入:LDA的最小单元输入是文档,不管文档里有多少个字2. 模型参数::是针对每个文档都有一个主题的概率分布,这时得到参数,是一个K维的向量,K是主题个数:V*K的矩阵,其中,K是主题个数,V是词库里的单词个数,矩阵中的每个位置是该单词分为某个主题的概率(注意:LDA时无监督算法,不需要标注,数据放到模型中会自动学习每个文档的主题分布和主题的词分布,也就是模型参数)3. 假设:每个文档属于多个主题。为了更好的理解LDA是一..
原创
发布博客 2022.01.26 ·
17586 阅读 ·
2 点赞 ·
0 评论 ·
46 收藏

理解维度灾难

可从三个角度理解维度灾难:1.高维空间导致的数据不足问题十几个维度的数据,若只选取其中两个维度表示数据,不同颜色的数据点,代表不同的类,在二维空间中,将空间划分为大小相等的格子,格子的颜色由格子内数据点的主体类别的颜色决定,对于新的数据点,它落在哪个格子中,格子的颜色对应的类别就被认为是这个新数据点的类别。然而,这仅仅是对于二维空间的,倘若提升到高维空间表示数据,那么格子的数目将会以指数爆炸式进行增长,那么就会导致有很多的格子内是没有足够的数据点占领,甚至会有大量的格子内没有任何数据点的存在,这样对
原创
发布博客 2022.01.26 ·
1376 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

参数估计方法(MLE,MAP,贝叶斯)【待补充】

建模的目标:建立拟合数据的分布模型 & 估计模型参数拟合连续型数据变量:高斯分布等拟合离散型数据变量:二项分布,多项式分布等估计模型参数的三种方法:MLE、MAP、贝叶斯方法一、MLE最大似然估计——频率学派最大似然是一种点估计。最大化似然的一些限制,这里我们以使用最大化似然求解一元高斯分布的参数为例。实际情况下,最大似然方法会系统性的低估分布的方差。这一种被称为偏置(bias)的现象。它与多项式曲线拟合中的过拟问题有关。注意,最大似然的解:是关于数据集的值的
原创
发布博客 2022.01.25 ·
1211 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

一元高斯分布&多元高斯分布&高斯过程&混合高斯模型

高斯分布,又称正态分布,应用于连续型随机变量分布的模型中,对于多元高斯分布存在和一元高斯相似的,对于多元实值向量,使熵取得最大值的是高斯分布。当多个随机变量之和相加时,根据拉普拉斯提出的中心极限定理(central limit theorem),⼀组随机变量之和(当然也是随机变量)的概率分布随着和式中项的数量的增加⽽逐渐趋向⾼斯分布,在实际应用中,随着样本数量的增加,分布会迅速收敛为高斯分布,二项分布当观测次数增多时,也会趋向于高斯分布(二项分布、泊松分布和正态分布的区别及联系? - 知乎)。首先,..
原创
发布博客 2022.01.25 ·
5905 阅读 ·
4 点赞 ·
0 评论 ·
18 收藏

机器学习(14)--核函数

原创
发布博客 2021.09.29 ·
281 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

机器学习(13)--SVM支持向量机

概念:分割界面之间没有数据点,分割界面之间的间隔,叫做硬间隔分割界面之间有数据点,分割界面之间的间隔,叫做软间隔支持向量确定平面,加了核函数就可做非线性的高斯核:gama越大,分割界面非线性越强烈c越大,过渡带越窄(分割界面之间的大小)训练集上有多个分类平面,但哪个是最优的?最大化距离平面最近点和平面的距离w乘以一些数,不改变距离y不同于正例负例的y=+1,-1,这里是函数值...
原创
发布博客 2021.09.28 ·
939 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

机器学习(12)--K-means

非监督学习的特点“物以类聚,人以群分”方法——K-means【不知道K就通过不断计算轮廓系数,确定最优的k】步骤:1、随机设置K个特征空间内的点作为初始的聚类中心2、对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类 中心点作为标记类别 3、接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平 均值)4、如果计算得出的新中心点与原中心点一样,那么结束,否则重新进行 第二步过程语法:sklearn.cluster.KMeanss...
原创
发布博客 2021.09.27 ·
402 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

机器学习(11)--逻辑斯蒂回归

保存模型和加载语法:from sklearn.externals import joblib保存:joblib.dump(rf, 'test.pkl')rf:模型名字test.pki:保存路径和文件名字加载:estimator = joblib.load('test.pkl')【注:文件格式pki,二进制格式】...
原创
发布博客 2021.09.27 ·
397 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

机器学习--模型保存和加载

保存模型和加载语法:from sklearn.externals import joblib保存:joblib.dump(rf, 'test.pkl')rf:模型名字test.pki:保存路径和文件名字加载:estimator = joblib.load('test.pkl')【注:文件格式pki,二进制格式】from sklearn.linear_model import LinearRegression, SGDRegressor, Ridge, Logist
原创
发布博客 2021.09.27 ·
313 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

机器学习--正则化

L2正则化:带有正则化的线性回归———回归解决过拟合的方式作用:可以使得W的每个元素都很小,都接近于0优点:越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象
原创
发布博客 2021.09.26 ·
228 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

机器学习(10)--线性回归(正规方程/梯度下降/岭回归/欠拟合过拟合)

线性模型试图学得一个通过属性的线性组合来进行预测的函数:线性回归定义:线性回归通过一个或者多个自变量与因变量之间之间进行建模的回归分析。其中特点为一个或多个称为回归系数的模型参数的线性组合,是迭代的算法迭代体现在三个方面:【优化是寻找最优的w】一元线性回归:涉及到的变量只有一个多元线性回归:涉及到的变量两个或两个以上线性关系定义:y = kx + by = k1x1 + k2x2......+knxn + b数组和矩阵:矩阵...
原创
发布博客 2021.09.26 ·
415 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

机器学习(9)--决策树和随机森林

一、决策树认识:决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法举例说明:案例一:案例二: 如何去划分是否能得到贷款?案例三:用信息论讨论,信息的单位是比特信息熵开放信息和不开放任何信息,概率不同,得到信息的代价小一些,信息熵就是一种代价因为信息不能为负,所以计算往往要加负号“谁是世界杯冠军”的信息量应该比5比特少。香农指出,它的准确信息量应...
原创
发布博客 2021.09.25 ·
386 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

机器学习--模型选择与调优(交叉验证/网格搜索)

1. 交叉验证目的:为了让被评估的模型更加准确可信【对参数的每一个值做一遍交叉验证】过程:交叉验证:将拿到的数据,分为训练和验证集。以下图为例:将数据分 成5份,其中一份作为验证集。然后经过5次(组)的测试,每次都更换不同 的验证集。即得到5组模型的结果,取平均值作为最终结果。又称5折交叉 验证。【十折交叉验证是最常用的】2. 网格搜索通常情况下,有很多参数是需要手动指定的(如k-近邻算法中的K值), 这种叫超参数。但是手动过程繁杂,所以需要对模型预设几种超参数组合。..
原创
发布博客 2021.09.24 ·
886 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

机器学习--分类模型评估(精确率和召回率)

1. 常见方式:2. 混淆矩阵在分类任务下,预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合,构成混淆矩阵(适用于多分类)【多分类,每个类别都有一个混淆矩阵】精确率与召回率【一般,召回率考虑的较多】F1-score:综合评判标准,反映模型的稳健性语法:sklearn.metrics.classification_reportsklearn.metrics.classif...
原创
发布博客 2021.09.24 ·
903 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

机器学习(8)--朴素贝叶斯算法

学习过程:1、概率基础2、朴素贝叶斯介绍概率:2的应该是(联合概率) 4/7 * 3/7 = 12/494的应该是(条件概率) P(产品,超重|喜欢) = P(产品|喜欢)P(超重|喜欢) = 1/8联合概率和条件概率联合概率:包含多个条件,且所有条件同时成立的概率 记作:P(A,B)条件概率:就是事件A在另外一个事件B已经发生条件下的发生概率 记作:P(A|B) 特性:P(A1,A2|B) = P(A1|B)P(A2|B) ...
原创
发布博客 2021.09.24 ·
339 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

机器学习(6)--KNN算法

nnn
原创
发布博客 2021.09.23 ·
305 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

机器学习(5)--数据集划分

sklearn数据集1、数据集划分2、sklearn数据集接口介绍3、 sklearn分类数据集4、 sklearn回归数据集数据集划分机器学习一般的数据集会划分为两个部分:训练数据:用于训练,构建模型测试数据:在模型检验时使用,用于评估模型是否有效【不同模型评估方式不同】【常用比例是:75%:25%】语法:sklearn数据集划分APIsklearn.model_selection.train_test_splitsklearn.datasets.
原创
发布博客 2021.09.23 ·
3060 阅读 ·
1 点赞 ·
0 评论 ·
11 收藏

机器学习(4)--算法分类和开发流程

算法是核心,数据和计算是基础大部分复杂模型的算法设计都是算法工程师在做,就业: 分析很多的数据 分析具体的业务 应用常见的算法 特征工程、调参数、优化判断需要使用何种算法:1. 数据类型:1)离散型数据:由记录不同类别个体的数目所得到的数据,又称计数数据,所有这些数据全部都是整数,而且不能再细分,也不能进一步提高他们的精确度2)连续型数据:变量可以在某个范围内取任一数,...
原创
发布博客 2021.09.19 ·
309 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多