2020年11月_u013250861

原创人工智能-机器学习：对抗攻击与防御(Adversarial Attack and Defense)

什么是对抗攻击与防御(Adversarial Attack and Defense)- 在实际的机器学期分类器中，更多的情况是用在实际生活中，很多时候实际系统会遇到很多的干扰、甚至是人为的蓄意攻击。如垃圾邮件等，我们需要让机器判别这些恶意攻击。- 机器训练出来的模型不光性能要强，还要能够对抗人类的恶意、攻击。- 现阶段，各种机器学习的模型很容易被攻击，但是不容易防御。# 二、对抗攻击(Adversarial Attack)## 1、对抗攻击(Adversarial Attack)的分类

2020-11-29 00:35:26 6340 1

原创机器学习-概率图模型：隐马尔可夫模型（HMM）【解决序列问题】【前提假设：隐层状态序列符合马尔可夫性、观测序列的各观测值相互独立】【被RNN等神经网络模型取代】【生成模型：对联合概率建模】

一、马尔科夫链1、马尔可夫性马尔可夫性：当一个随机过程在给定当前状态及所有过去状态情况下，其未来状态的条件概率分布仅依赖于当前状态；换句话说，在给定现在状态时，它与过去状态（即该过程的历史路径）是条件独立的，那么此随机过程即具有马尔可夫性质。具有马尔可夫性质的随机过程通常称之为马尔可夫过程。2、马尔科夫链马尔科夫链：即为状态空间中从一个状态到另一个状态转换的随机过程。该过程要求具备“无记忆”的性质：下一状态的概率分布只能由当前状态决定，在时间序列中它前面的事件均与之无关。这种特定类型

2020-11-26 21:00:13 1170

原创机器学习-算法-有监督学习：EM（最大期望值算法）＜=＞ MLE（最大似然估计法）【关系类似“梯度下降法”＜=＞“直接求导法”】【EM&“梯度下降”：先初始化一个随机值，然后通过迭代不断靠近真实值】

最大期望算法（Expectation-maximization algorithm，又译为期望最大化算法），是在概率模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐性变量。它是一个基础算法，是很多机器学习领域算法的基础，比如隐式马尔科夫算法(HMM)等等。最大期望算法经过两个步骤交替进行计算：第一步是计算期望(E)，利用对隐藏变量的现有估计值，计算其最大似然估计值；第二步是最大化(M)，最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一.

2020-11-26 20:57:40 782

原创机器学习-有监督学习-分类算法：SVM/支持向量机【SVM：高维空间里用于二分类的超平面；支持向量：超平面附近隔离带边界上的样本】【求参数(ω,b)使超平面y(x)=Φ(x)·ω+b能最优分隔两集合】

支持向量机(support vector machine)：简称 SVM。机，即机器，指的是这个模型是一个机器，它的作用是分类，所以可以理解为一个分类用的机器。通俗来讲，它是一种二类分类模型。其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。一、SVM算法导引在很久以前的情人节，大侠要去救他的爱人，但魔鬼和他玩了一个游戏。魔鬼在桌子上似乎有规律放了两种颜色的球，说：“你用一根棍分开它们？要求：尽量在放更多球之后，仍然适用。”于是.

2020-11-24 23:56:36 1311 1

原创机器学习-无监督学习-聚类：聚类方法（一）--- k-Means（k-均值）算法，k-Means++算法【使用最大期望值算法（EM算法）来求解】

k-Means算法，也被称为k-平均或k-均值，是一种广泛使用的聚类算法，或者成为其他聚类算法的基础。k-Means其实包含两层内容：- K : 初始中心点个数（计划聚类数）- means：求中心点到其他数据点距离的平均值

2020-11-24 19:10:12 1930

原创机器学习-有监督学习-分类算法：逻辑回归/Logistic回归（二分类模型）【值域符合二项分布律 ==似然函数最大化==＞交叉熵/对数损失函数】、Softmax回归（多分类模型）【交叉熵损失函数】

逻辑回归：分类问题的首选算法，主要用于解决二分类问题## 1、什么是逻辑回归>**逻辑回归**(Logistic Regression)：是一种**对数几率模型**，虽然被称为回归，但其实际上是**分类算法模型**。从大的类别上来说，逻辑回归是一种有监督的统计学习方法，主要用于对样本进行分类。>线性回归模型中：**输出一般是连续的**，例如 $y=\textbf{X}\textbf{Θ}=θ_1x_1+θ_2x_2+θ_3x_3+...+θ_nx...

2020-11-23 00:05:36 1911

原创机器学习-有监督学习-回归算法：线性回归【值域符合正态分布律 ==似然函数最大化 ==＞平方损失函数】【LASSO回归（L1）、Ridge岭回归(L2)、ElasticNet回归（L1&L2）】

人工智能-机器学习-算法-回归算法：线性回归

2020-11-20 23:16:21 527

原创人工智能-模型调优：K-折交叉验证、网格搜索(可并行计算)、启发式搜索(随机搜索,遗传算法,贝叶斯优化)

对估计器的指定参数值进行详尽搜索(排列组合，然后找出使得模型效果最好的最优参数组合)比如，模型需要超参数(a,b)。给这参数a指定2个待评估参数3,7，给参数b指定3个待评估参数20,36,72，那么模型会对(3,20)、(3,36)、(3,72)、(7,20)、(7,36)、(7,72)这几组参数分别评估，然后通过准确率选出一个最优的参数组合来建立模型。

2020-11-20 22:15:09 2398

原创机器学习-有监督学习-分类算法：决策树算法【CART树：分类树(基于信息熵；分类依据：信息增益、信息增益率、基尼系数)、回归树(基于均方误差)】【损失函数：叶节点信息熵和】【对特征具有很好的分析能力】

决策树算法采用的是自顶向下递归方法，其基本思想是以信息熵为度量构造一棵值下降最快的树，到叶子节点处熵值为零，此时每个叶节点中的实例都属于同一类。决策树是一种自上而下，对样本数据进行树形分类的过程，由结点和有向边组成。结点分为内部结点和叶结点，其中每个内部结点表示一个特征或属性，叶结点表示类别。从顶部根结点开始，所有样本聚在一起。经过根结点的划分，样本被分到不同的子结点中。再根据子结点的特征进一步划分，直至所有样本都被归到某一个类别（即叶结点）中。决策树：自顶向下，做一个信息熵下降最快的树，使得事件越来越

2020-11-19 22:18:59 1427

原创机器学习-有监督学习-分类算法：朴素贝叶斯算法(用于文本分类)

一、贝叶斯公式1、贝叶斯公式P(Ax∣B)=P(AxB)P(B)=P(B∣Ax)∗P(Ax)P(B)=P(B∣Ax)∗P(Ax)∑i=0nP(B∣Ai)∗P(Ai)=Ax条件下B的似然概率∗Ax的先验概率事件B的先验概率=Ax条件下B的似然概率∗Ax的先验概率∑i=0nAi条件下B的似然概率∗Ai的先验概率=似然概率∗先验概率标准化常量P(A_x|B)\\=\frac{P(A_xB)}{P(B)}=\frac{P(B|A_x)*P(A_x)}{P(B)}=\frac{P(B|A_x)*P(A_x)}{

2020-11-19 01:51:53 671

原创机器学习-有监督学习-分类算法：k-近邻（KNN）算法【多分类】【使用场景：小数据场景/小样本学习，几千～几万样本】【使用faiss库实现快速计算KNN】

K-近邻算法(KNN)概念>**k-近邻算法**：如果一个样本在特征空间中的**k个最相似(即特征空间中最邻近)的样本中的大多数**属于某一个类别，则该样本也属于这个类别。>相似的样本，同一特征的值应该是相近的。>k的取值会影响结果。>就是通过你的"邻居"来判断你属于哪个类别。>如何计算你到你的"邻居"的距离：一般时候,都是使用欧氏距离计算k-近邻距离公式：两个样本的距离可以通过如下公式计算，又叫**欧式距离**。需要事先对数据进行标准化处理。

2020-11-17 21:51:49 2217 1

原创机器学习-第三方库(工具包)：scikit-learn【用于特征工程（主要分为三部分：数据预处理、特征选择、降维）】【Sklearn模块中包含常用的算法】

Python语言的机器学习工具Scikit-learn包括许多知名的机器学习算法的实现(算法原理一定要懂)Scikit-learn文档完善，容易上手，丰富的API，使其在学术界颇受欢迎。一、特征抽取 (使用scikit-learn进行数据的特征抽取)1、字典类型数据----特征抽取使用类：sklearn.feature_extraction.DictVectorizersklearn.feature_extraction.DictVectorizer的作用：对字典数据进行特征值化。即：把字典里

2020-11-17 00:55:08 3814

原创 Pandas-案例分析（一）：电影案例分析

Python语言的机器学习工具Scikit-learn包括许多知名的机器学习算法的实现(算法原理一定要懂)Scikit-learn文档完善，容易上手，丰富的API，使其在学术界颇受欢迎。一、特征抽取 (使用scikit-learn进行数据的特征抽取)1、字典类型数据----特征抽取使用类：sklearn.feature_extraction.DictVectorizersklearn.feature_extraction.DictVectorizer的作用：对字典数据进行特征值化。即：把字典里

2020-11-17 00:44:33 1942

原创数学-概率与统计-随机过程-总结(五)：更新过程

数学-随机过程-总结(五)：更新过程

2020-11-12 23:49:00 437

原创随机过程(三)：马尔可夫过程、马尔可夫链、转移概率、转移概率矩阵、平稳性、齐次性、时齐性、一步转移概率、一步转移概率矩阵、C-K方程、n步转移概率、n步转移概率矩阵、遍历性、极限分布、平稳分布

数学-随机过程-总结(四)：连续时间的马尔可夫链

2020-11-12 23:44:17 3965

原创数学-概率与统计-随机过程-总结(三)：泊松过程

1 马尔可夫过程及其概率分布2 多步转移概率的确定3 遍历性

2020-11-12 23:43:42 455

原创随机过程(二)：平稳随机过程

1 马尔可夫过程及其概率分布2 多步转移概率的确定3 遍历性

2020-11-12 23:40:23 525

原创随机过程(一)-随机过程及其统计描述：随机过程{X(t,e),t∈T}、状态空间、样本函数/样本曲线、伯努利过程、离散型随机过程、连续性随机过程、正交增量过程、高斯过程、泊松过程、维纳过程

1 随机过程的概念2 随机过程的统计描述3 泊松过程及维纳过程

2020-11-12 23:39:47 944

原创数理统计(四)-方差分析及回归分析：总变差分解【总变差=方差+效应A平方和+效应B平方和+AB交互效应平方和】、线性回归模型、回归方程、残差、残差平方和、σ的无偏估计、多元线性回归模型、非线性回归模型

1 单因素试验的方差分析2 双因素试验的方差分析3 一元线性回归4 多元线性回归

2020-11-12 23:37:33 2627

原创数理统计(三)-假设检验：显著性水平α、检验统计量、原假设、备择假设、拒绝域、临界点、第Ⅰ类错误、第Ⅱ类错误、【检验μ、检方差、检验分布】、临界值法【Z检验法、t检验法、卡方检验法、F检验法】、p值法

1 假设检验2 正态总体均值的假设检验3 正态总体方差的假设检验4 置信区间与假设检验之间的关系5 样本容量的选取6 分布拟合检验7 秩和检验8 假设检验问题的户值检验法

2020-11-12 23:36:53 1533

原创数理统计(二)-参数估计：点估计【矩估计法、最大似然估计法(似然函数、对数似然函数、牛顿-拉弗森迭代算法、拟牛顿迭代算法)】、区间估计【双侧置信区间、单侧置信区间、置信水平、枢轴量、枢轴量的分布】

1 点估计2 基于截尾样本的最大似然估计3 估计量的评选标准4 区间估计5 正态总体均值与方差的区间估计6 （0-1）分布参数的区间估计7 单侧置信区间

2020-11-12 23:36:00 565

原创数理统计(一)-样本及抽样分布：总体、容量、样本、样本值、直方图、箱线图、四分位数、疑似异常值、修正箱线图、样本统计量【平均值、方差、标准差、k阶矩、中心距】、抽样分布【卡方分布、t分布、F分布】

数学-概率与统计-总结(六)：样本及抽样分布

2020-11-09 22:44:39 676

原创概率论(五)：大数定律【弱大数定律、伯努利大数定理】、中心极限定理【独立同分布中心极限定理、Lyapunov中心极限定理、Moivre-Laplace中心极限定理】

数学-概率与统计-总结(五)：大数定律及中心极限定理

2020-11-09 22:44:01 897

原创概率论(四)-随机变量的数字特征：数学期望值/均值E(X)、方差Var(X)、标准差σ(X)、切比雪夫不等式、协方差Cov(X,Y)、相关系数ρ、独立与相关、k阶矩、中心距、混合矩、协方差矩阵

数学-概率与统计-总结(四)：随机变量的数字特征

2020-11-09 22:43:21 514

原创概率论(三)-多维随机变量及其分布：n维随机变量、概率分布函数F(x1,x2,..xn)、联合分布律、联合概率密度、边缘分布律、边缘概率密度、条件分布律、条件概率密度、β函数、Γ函数、max{X,Y}

1 二维随机变量2 边缘分布3 条件分布4 相互独立的随机变量5 两个随机变量的函数的分布

2020-11-09 22:42:45 1627

原创概率论(二)-随机变量及其分布：分布函数F(x)、离散型随机变量【分布律：(0-1)分布、二项分布、泊松分布】、连续型随机变量【概率密度：均匀分布、指数分布、正态/高斯分布】、3σ法则、偏度、峰度

1 随机变量2 离散型随机变量及其分布律3 随机变量的分布函数4 连续型随机变量及其概率密度5 随机变量的函数的分布

2020-11-09 22:42:06 619

原创概率论(一)-概率论的基本概念：样本空间、随机事件、和事件、积事件、互斥事件、对立事件、频率、概率、加法定理、等可能概型、条件概率、乘法定理、全概率公式、贝叶斯公式、先验概率、后验概率、相互独立性

人工智能-机器学习-数学-概率与统计-总结(一)：概率论的基本概念

2020-11-09 22:37:42 855

u013250861的博客