Ona_Soton-CSDN博客

原创机器学习三个核心理论

【待补充：为什么有些情况，不需要得到完整的联合概率就可以得到后验概率】ML：抽象出一个pattern模拟数据背后的model，然后根据模拟的model去做预测ML的类别：ML针对的三种任务类型：——分类任务——回归任务——排序任务（y有顺序）————多分类任务（y没有顺序）不同的损失函数其实就对应了不同的算法（每个特定的任务都有不同的损失函数），但是我们如何找到这样的函数f（损失函数中的f），在iid的条件下，我们一般是通过最小化期望风险，从期望的意义下，假设，不..

2022-01-30 14:15:31 1704 1

原创 Bias - Variance Decomposition

偏差-方差分解定理解释了训练的数据和调控因子lamda（惩罚项里的）的作用因为机器学习的真实目标是期望风险最小化，其可以分解为三个部分Noise：像是多项式产生数据，会给原本的sinx+noise产生数据以拟合真实的数据，Bias：hx是理论上最优的f，所以偏差就是通过训练集得到的函数f和期望得到的函数差多少Variance：是指在一份训练数据上得到的函数和多份训练数据的平均之间相差多少第一行，第一个，每一条红色的线就是在一份数据上产生的结果第一行，第二、三个，.

2022-01-30 14:15:09 1023

原创 LDA详解

LDA是一个生成式模型，是一个无监督模型1. 输入：LDA的最小单元输入是文档，不管文档里有多少个字2. 模型参数：：是针对每个文档都有一个主题的概率分布，这时得到参数，是一个K维的向量，K是主题个数：V*K的矩阵，其中，K是主题个数，V是词库里的单词个数，矩阵中的每个位置是该单词分为某个主题的概率（注意：LDA时无监督算法，不需要标注，数据放到模型中会自动学习每个文档的主题分布和主题的词分布，也就是模型参数）3. 假设：每个文档属于多个主题。为了更好的理解LDA是一..

2022-01-26 14:44:23 17682

原创理解维度灾难

可从三个角度理解维度灾难：1.高维空间导致的数据不足问题十几个维度的数据，若只选取其中两个维度表示数据，不同颜色的数据点，代表不同的类，在二维空间中，将空间划分为大小相等的格子，格子的颜色由格子内数据点的主体类别的颜色决定，对于新的数据点，它落在哪个格子中，格子的颜色对应的类别就被认为是这个新数据点的类别。然而，这仅仅是对于二维空间的，倘若提升到高维空间表示数据，那么格子的数目将会以指数爆炸式进行增长，那么就会导致有很多的格子内是没有足够的数据点占领，甚至会有大量的格子内没有任何数据点的存在，这样对

2022-01-26 10:51:48 1478

原创参数估计方法（MLE，MAP，贝叶斯）【待补充】

建模的目标：建立拟合数据的分布模型 & 估计模型参数拟合连续型数据变量：高斯分布等拟合离散型数据变量：二项分布，多项式分布等估计模型参数的三种方法：MLE、MAP、贝叶斯方法一、MLE最大似然估计——频率学派最大似然是一种点估计。最大化似然的一些限制，这里我们以使用最大化似然求解一元高斯分布的参数为例。实际情况下，最大似然方法会系统性的低估分布的方差。这一种被称为偏置（bias）的现象。它与多项式曲线拟合中的过拟问题有关。注意，最大似然的解：是关于数据集的值的

2022-01-25 15:09:10 1263

原创一元高斯分布&多元高斯分布&高斯过程&混合高斯模型

高斯分布，又称正态分布，应用于连续型随机变量分布的模型中，对于多元高斯分布存在和一元高斯相似的，对于多元实值向量，使熵取得最大值的是高斯分布。当多个随机变量之和相加时，根据拉普拉斯提出的中心极限定理（central limit theorem），⼀组随机变量之和（当然也是随机变量）的概率分布随着和式中项的数量的增加⽽逐渐趋向⾼斯分布，在实际应用中，随着样本数量的增加，分布会迅速收敛为高斯分布，二项分布当观测次数增多时，也会趋向于高斯分布（二项分布、泊松分布和正态分布的区别及联系? - 知乎）。首先，..

2022-01-25 12:09:29 6098

原创机器学习(14)--核函数

2021-09-29 09:17:48 319

原创机器学习(13)--SVM支持向量机

概念：分割界面之间没有数据点，分割界面之间的间隔，叫做硬间隔分割界面之间有数据点，分割界面之间的间隔，叫做软间隔支持向量确定平面，加了核函数就可做非线性的高斯核：gama越大，分割界面非线性越强烈c越大，过渡带越窄（分割界面之间的大小）训练集上有多个分类平面，但哪个是最优的？最大化距离平面最近点和平面的距离w乘以一些数，不改变距离y不同于正例负例的y=+1，-1，这里是函数值...

2021-09-28 15:10:44 980

原创机器学习(12)--K-means

非监督学习的特点“物以类聚，人以群分”方法——K-means【不知道K就通过不断计算轮廓系数，确定最优的k】步骤：1、随机设置K个特征空间内的点作为初始的聚类中心2、对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别 3、接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平均值）4、如果计算得出的新中心点与原中心点一样，那么结束，否则重新进行第二步过程语法：sklearn.cluster.KMeanss...

2021-09-27 09:12:15 447

原创机器学习(11)--逻辑斯蒂回归

保存模型和加载语法：from sklearn.externals import joblib保存：joblib.dump(rf, 'test.pkl')rf：模型名字test.pki：保存路径和文件名字加载：estimator = joblib.load('test.pkl')【注：文件格式pki，二进制格式】...

2021-09-27 08:22:53 429

原创机器学习--模型保存和加载

保存模型和加载语法：from sklearn.externals import joblib保存：joblib.dump(rf, 'test.pkl')rf：模型名字test.pki：保存路径和文件名字加载：estimator = joblib.load('test.pkl')【注：文件格式pki，二进制格式】from sklearn.linear_model import LinearRegression, SGDRegressor, Ridge, Logist

2021-09-27 07:27:00 351

原创机器学习--正则化

L2正则化：带有正则化的线性回归———回归解决过拟合的方式作用：可以使得W的每个元素都很小，都接近于0优点：越小的参数说明模型越简单，越简单的模型则越不容易产生过拟合现象

2021-09-26 13:25:04 282

原创机器学习(10)--线性回归（正规方程/梯度下降/岭回归/欠拟合过拟合）

线性模型试图学得一个通过属性的线性组合来进行预测的函数：线性回归定义：线性回归通过一个或者多个自变量与因变量之间之间进行建模的回归分析。其中特点为一个或多个称为回归系数的模型参数的线性组合，是迭代的算法迭代体现在三个方面：【优化是寻找最优的w】一元线性回归：涉及到的变量只有一个多元线性回归：涉及到的变量两个或两个以上线性关系定义：y = kx + by = k1x1 + k2x2......+knxn + b数组和矩阵：矩阵...

2021-09-26 10:09:58 446

原创机器学习(9)--决策树和随机森林

一、决策树认识：决策树思想的来源非常朴素，程序设计中的条件分支结构就是if-then结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法举例说明：案例一：案例二：如何去划分是否能得到贷款？案例三：用信息论讨论，信息的单位是比特信息熵开放信息和不开放任何信息，概率不同，得到信息的代价小一些，信息熵就是一种代价因为信息不能为负，所以计算往往要加负号“谁是世界杯冠军”的信息量应该比5比特少。香农指出，它的准确信息量应...

2021-09-25 09:43:19 407

原创机器学习--模型选择与调优(交叉验证/网格搜索)

1. 交叉验证目的：为了让被评估的模型更加准确可信【对参数的每一个值做一遍交叉验证】过程：交叉验证：将拿到的数据，分为训练和验证集。以下图为例：将数据分成5份，其中一份作为验证集。然后经过5次(组)的测试，每次都更换不同的验证集。即得到5组模型的结果，取平均值作为最终结果。又称5折交叉验证。【十折交叉验证是最常用的】2. 网格搜索通常情况下，有很多参数是需要手动指定的（如k-近邻算法中的K值），这种叫超参数。但是手动过程繁杂，所以需要对模型预设几种超参数组合。..

2021-09-24 09:31:40 993

原创机器学习--分类模型评估(精确率和召回率)

1. 常见方式：2. 混淆矩阵在分类任务下，预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合，构成混淆矩阵(适用于多分类)【多分类，每个类别都有一个混淆矩阵】精确率与召回率【一般，召回率考虑的较多】F1-score：综合评判标准，反映模型的稳健性语法：sklearn.metrics.classification_reportsklearn.metrics.classif...

2021-09-24 09:09:07 955

原创机器学习(8)--朴素贝叶斯算法

学习过程：1、概率基础2、朴素贝叶斯介绍概率：2的应该是(联合概率) 4/7 * 3/7 = 12/494的应该是(条件概率) P(产品，超重｜喜欢) = P(产品｜喜欢)P(超重｜喜欢) = 1/8联合概率和条件概率联合概率：包含多个条件，且所有条件同时成立的概率记作：P(A,B)条件概率：就是事件A在另外一个事件B已经发生条件下的发生概率记作：P(A|B) 特性：P(A1,A2|B) = P(A1|B)P(A2|B) ...

2021-09-24 08:53:32 431

原创机器学习(6)--KNN算法

nnn

2021-09-23 12:52:26 346

原创机器学习(5)--数据集划分

sklearn数据集1、数据集划分2、sklearn数据集接口介绍3、 sklearn分类数据集4、 sklearn回归数据集数据集划分机器学习一般的数据集会划分为两个部分：训练数据：用于训练，构建模型测试数据：在模型检验时使用，用于评估模型是否有效【不同模型评估方式不同】【常用比例是：75%:25%】语法：sklearn数据集划分APIsklearn.model_selection.train_test_splitsklearn.datasets.

2021-09-23 08:44:38 3194

原创机器学习(4)--算法分类和开发流程

算法是核心，数据和计算是基础大部分复杂模型的算法设计都是算法工程师在做，就业：分析很多的数据分析具体的业务应用常见的算法特征工程、调参数、优化判断需要使用何种算法：1. 数据类型：1）离散型数据：由记录不同类别个体的数目所得到的数据，又称计数数据，所有这些数据全部都是整数，而且不能再细分，也不能进一步提高他们的精确度2）连续型数据：变量可以在某个范围内取任一数，...

2021-09-19 12:37:33 334

原创机器学习(3)--特征工程之数据降维

降维这里的维度指降低特征的数量【这里的降维不是指数组的维度】

2021-09-19 09:46:48 623

原创机器学习(2)--特征工程之特征预处理(归一化/标准化/缺失值)

二、数据的特征处理概念：通过特定的统计方法（数学方法）将数据转换成算法要求的数据不同数据的处理方式：数值型数据：标准缩放： 1、归一化 2、标准化 3、缺失值类别型数据：one-hot编码时间类型：时间的切分sklearn特征处理APIsklearn. preprocessing数值型数据1. 归一化：特点：通过对原始数据进行变换把数据映射到(默认为[0,1...

2021-09-19 09:42:49 929

原创机器学习(1)--特征工程之特征抽取

三者关系：人工智能>机器学习>深度学习机器学习：机器学习是从数据中自动分析获得规律（模型），并利用规律对未知数据进行预测机器学习的数据：文件csv（mysql有性能瓶颈，读取速度慢，格式不符合机器学习所要求的格式）Pandas：读取工具数据集结构：可用数据集1. Kaggle特点：1）大数据竞赛平台 2）80万科学家 3）真实数据 4）数据量巨大2.UCI特点：...

2021-09-18 14:16:39 1481

原创 Python(11)--垃圾回收

垃圾回收的必要性为什么现在电动车越来越多？传统能源车排放的垃圾（二氧化碳、二氧化硫）无法回收为什么大街上的垃圾箱都要分类?便于垃圾回收，重复利用为什么样电脑开时间长了，越来越卡?程序占用的内存无法释放程序的垃圾回收电脑运行一段时间会变慢，大家是亲身体会过,相信大家对于这种情况的处理都有各自的方法，比如:关闭不用的程序结束掉进程关闭一些服务重启电脑我们会发现，重启的效果是最明显的,原因就在于，程序永远不会完美，通过前三种方法无法释放内存资源，而垃圾回...

2021-09-17 13:40:16 501

原创 Python(10)--文件读写/模块制作与发布

文件读写文件操作一般步骤：打开文件读/写文件保存文件关闭文件【在python中操作文件也是遵循这几个步骤的】打开文件在Python中打开文件使用open函数，可以打开一个已经存在的文件，或者创建一个新文件语法格式： open('文件名称','打开模式’)示例：*规定encode有两种：打开的行指明或者写入行指明（见如下代码）*每个项目的虚拟环境不同，安装的包都不同，不需要都安装文件的操作# 打开文件 open# 默认的编码是gbk...

2021-09-17 10:40:32 294

原创 Python入门基础(9)--飞机大战案例

重点体会如何通过面向对象实现明确需求中有几个对象，对象有什么属性，功能，对象之间有什么关系s多态封装等特性能否体现有哪些功能可以拓展一、明确需求和准备工作plane pro需求描述：对象：四个我方飞机、敌方飞机、我方子弹、敌方子弹功能：我方飞机可以移动【根据按键来控制】敌方飞机可以移动【随机的自动移动】双方飞机都可以发送子弹、步骤：1. 创建一个窗口2. 创建一个方飞机，根据方向键左右的移动3. 给我方飞机添加随机发射子弹的功能【按下空格键取发送】

2021-09-15 12:59:19 260

原创 Python入门基础(8)--私有化属性和方法/Property属性/_new_方法/单例模式/错误和异常处理/Python动态添加属性和方法/_slots_属性

本章重点通过声明私有化属性、方法，保护和控制数据（重点）通过property属性的使用，即控制好数据又方便访问（重点、难点）明确__new__方法的作用和用法（重点）通过单例模式，控制实例个数（难点）使用异常处理机制，处理异常，提高代码健壮性利用动态语言特点，动态添加属性和方法利用__slots__属性控制可动态的属性私有化属性概述前面学习面向对象过程中，修改类属性都是直接通过类名修改的。如果有些重要属性不想让别人随便修改，或者防止意外修改，该怎么办？为了...

2021-09-15 11:36:16 352

原创 Python入门基础(7)--析构函数/类的继承/父类的调用/静态方法

析构方法相信大家都有这样的经历：我们进入一家商店的时候经常会听到一个喇叭播放说，欢迎光临，当我们出商店的时候也会提醒说欢迎光临，现实中这是通过感应器触发的，但是在程序中我们是如何触发实现呢，这就是我们要介绍的，析构函数概述当一个对象被删除或者被销毁时，python解释器也会默认调用一个方法，这个方法为__del__()方法，也称为析构方法定义程序执行结束自动调用__del__方法可以看到输出结果为：##析构方法肯定是在类的内部class Animal: de..

2021-09-14 13:47:09 960

原创 Python入门基础(6)--面向对象/类和对象/魔术方法

面向对象基本概述面向对象（Object Oriented Programming,OOP）编程：扩展性更强、可读性更好。面向对象的编程将数据和操作数据封装到对象中，组织代码和数据的方式更接近人的思维，提高编程效率。 python支持面向对象、面向过程、函数式编程等多种编程范式面向对象与面向过程编程的区别与联系面向过程procedure oriented思维按照解决问题的逻辑去编写代码，根据业务逻辑从上到下写代码, 面向过程编程：“程序的逻辑流程”，适合编写小范围的程序。在思考问题时，首

2021-09-13 14:42:24 296

原创 Python入门基础(5)--函数(匿名函数/递归函数/序列操作函数/集合操作)

函数的四种基本类型：1. 无参数，无返回值，一般用于提示信息打印。2. 无参数，有返回值，多用在数据采集中，比如获取系统信息。3. 有参数，无返回值，多用在设置某些不需要返回值的参数设置。4. 有参数，有返回值，一般是计算型的，需要参数，最终也要返回结果。变量的作用域变量的作用域：变量起作用的范围，不同作用域的同名变量之间互不影响，分为全局变量和局部变量。全局变量：在函数和类定义之外声明的变量，作用域为定义的模块全局变量降低了函数的通用性和可读性，应避免使...

2021-09-13 13:39:31 321

原创 Python入门基础(4)--函数(基础知识/参数)

函数Contents函数基础参数（传参、调用、不定长参数）函数返回值（return）函数嵌套调用函数基础在编写程序的过程中，有某一功能代码块出现多次，但是为了提高编写的效率以及代码的重用，所以把具有独立功能的代码块组织为一个小模块，这就是函数（一系列Python语句的组合，可以在程序中运行一次或者多次；代码的复用最大化以及最小化冗余代码，整体代码结构清晰，问题局部化更好的扩展处理）函数定义：def + 关键字 + 小括号 + 冒号 + 换行缩进 + 代码块定义一个函数

2021-09-12 20:14:24 411

原创 Python入门基础(3)--高级数据类型(字符串/列表/元组/字典)

python高级数据类型（python可以处理类型有数字、字符串、列表、元组、字典等）Contents字符串及常用方法列表及常用方法元组字典及常用方法共有操作序列：在python中，序列是一组按照顺序排列的值【数据集合】在python中存在三种内置的序列类型：（字典不属于序列）字符串列表元组序列的优点：可以支持索引和切片的操作（切片是指截取字符串中的其中一段内容。切片使用语法：[起始下标：结束下标：步长] 切片截取的内容不包含结束下标对应的数据，步长指的是...

2021-09-12 12:31:20 472

原创 Python入门基础(2)--判断语句&循环控制&相关小练习

Outline：大纲具体内容如下所示（方便查询和复习）：内容：if-else语句（if语句的嵌套使用） while循环 for循环 break、continue语句多条件与短路运算流程：就是计算机执行代码的顺序流程控制：对计算机代码执行的顺序进行有效a'a的管理，只有流程控制才能实现在开发当中的业务逻辑流程控制的分类：顺序流程：就是代码一种自上而下的执行结构，也是python默认的流程选择流程/分支流程：根据在某一步的判断，有选择的去执行相应的逻辑的一种结构

2021-09-11 18:34:17 228

原创 Python入门基础(1)--python简介&变量&数据类型

以下为大纲的展开内容（可供查阅和复习）内容：python是什么？（python是一种面向对象的解释型（把python语言翻译成机器二进制代码语言）计算机程序设计语言。它常被昵称为胶水语言，能够把其他语言制作的各种模块（尤其是C/C++）很轻松地联结在一起。第一个公开发行版在1991年，Guido van Rossum根据他喜欢的喜剧团体Monty Python来命名Python。）怎么写python程序 python注释（注释是编写程序时，写程序的人给一个语句、程序段、函数等的解释或提示。..

2021-09-11 14:48:25 186

原创人工智能数学进阶知识点（1）--O(n) & o(n)

O(n) & o(n)

2021-09-10 20:33:02 232

原创人工智能高数入门知识框架（1）

特殊需要记忆的点：

2021-09-10 19:48:10 148

Ona_Soton的博客