自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 资源 (4)
  • 收藏
  • 关注

原创 人工智能-机器学习:对抗攻击与防御(Adversarial Attack and Defense)

什么是对抗攻击与防御(Adversarial Attack and Defense)- 在实际的机器学期分类器中,更多的情况是用在实际生活中,很多时候实际系统会遇到很多的干扰、甚至是人为的蓄意攻击。如垃圾邮件等,我们需要让机器判别这些恶意攻击。- 机器训练出来的模型不光性能要强,还要能够对抗人类的恶意、攻击。- 现阶段,各种机器学习的模型很容易被攻击,但是不容易防御。# 二、对抗攻击(Adversarial Attack)## 1、对抗攻击(Adversarial Attack)的分类

2020-11-29 00:35:26 6340 1

原创 机器学习-概率图模型:隐马尔可夫模型(HMM)【解决序列问题】【前提假设:隐层状态序列符合马尔可夫性、观测序列的各观测值相互独立】【被RNN等神经网络模型取代】【生成模型:对联合概率建模】

一、马尔科夫链1、 马尔可夫性马尔可夫性:当一个随机过程在给定当前状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态;换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么此随机过程即具有马尔可夫性质。具有马尔可夫性质的随机过程通常称之为马尔可夫过程。2、 马尔科夫链马尔科夫链:即为状态空间中从一个状态到另一个状态转换的随机过程。该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型

2020-11-26 21:00:13 1170

原创 机器学习-算法-有监督学习:EM(最大期望值算法)<=> MLE(最大似然估计法)【关系类似“梯度下降法”<=>“直接求导法”】【EM&“梯度下降”:先初始化一个随机值,然后通过迭代不断靠近真实值】

最大期望算法(Expectation-maximization algorithm,又译为期望最大化算法),是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐性变量。它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM)等等。最大期望算法经过两个步骤交替进行计算:第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一.

2020-11-26 20:57:40 782

原创 机器学习-有监督学习-分类算法:SVM/支持向量机【SVM:高维空间里用于二分类的超平面;支持向量:超平面附近隔离带边界上的样本】【求参数(ω,b)使超平面y(x)=Φ(x)·ω+b能最优分隔两集合】

支持向量机(support vector machine):简称 SVM。机,即机器,指的是这个模型是一个机器,它的作用是分类,所以可以理解为一个分类用的机器。通俗来讲,它是一种二类分类模型。其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。一、SVM算法导引在很久以前的情人节,大侠要去救他的爱人,但魔鬼和他玩了一个游戏。魔鬼在桌子上似乎有规律放了两种颜色的球,说:“你用一根棍分开它们?要求:尽量在放更多球之后,仍然适用。”于是.

2020-11-24 23:56:36 1311 1

原创 机器学习-无监督学习-聚类:聚类方法(一)--- k-Means(k-均值)算法,k-Means++算法【使用最大期望值算法(EM算法)来求解】

k-Means算法,也被称为k-平均或k-均值,是一种广泛使用的聚类算法,或者成为其他聚类算法的基础。k-Means其实包含两层内容:- K : 初始中心点个数(计划聚类数)- means:求中心点到其他数据点距离的平均值

2020-11-24 19:10:12 1930

原创 机器学习-有监督学习-分类算法:逻辑回归/Logistic回归(二分类模型)【值域符合二项分布律 ==似然函数最大化==> 交叉熵/对数损失函数】、Softmax回归(多分类模型)【交叉熵损失函数】

逻辑回归:分类问题的首选算法,主要用于解决二分类问题## 1、什么是逻辑回归>**逻辑回归**(Logistic Regression):是一种**对数几率模型**,虽然被称为回归,但其实际上是**分类算法模型**。从大的类别上来说,逻辑回归是一种有监督的统计学习方法,主要用于对样本进行分类。>线性回归模型中:**输出一般是连续的**,例如 $y=\textbf{X}\textbf{Θ}=θ_1x_1+θ_2x_2+θ_3x_3+...+θ_nx...

2020-11-23 00:05:36 1911

原创 机器学习-有监督学习-回归算法:线性回归【值域符合正态分布律 ==似然函数最大化 ==> 平方损失函数】【LASSO回归(L1)、Ridge岭回归(L2)、ElasticNet回归(L1&L2)】

人工智能-机器学习-算法-回归算法:线性回归

2020-11-20 23:16:21 527

原创 人工智能-模型调优:K-折交叉验证、网格搜索(可并行计算)、启发式搜索(随机搜索,遗传算法,贝叶斯优化)

对估计器的指定参数值进行详尽搜索(排列组合,然后找出使得模型效果最好的最优参数组合)比如,模型需要超参数(a,b)。给这参数a指定2个待评估参数3,7,给参数b指定3个待评估参数20,36,72,那么模型会对(3,20)、(3,36)、(3,72)、(7,20)、(7,36)、(7,72)这几组参数分别评估,然后通过准确率选出一个最优的参数组合来建立模型。

2020-11-20 22:15:09 2398

原创 机器学习-有监督学习-分类算法:决策树算法【CART树:分类树(基于信息熵;分类依据:信息增益、信息增益率、基尼系数)、回归树(基于均方误差)】【损失函数:叶节点信息熵和】【对特征具有很好的分析能力】

决策树算法采用的是自顶向下递归方法,其基本思想是以信息熵为度量构造一棵值下降最快的树,到叶子节点处熵值为零,此时每个叶节点中的实例都属于同一类。决策树是一种自上而下,对样本数据进行树形分类的过程,由结点和有向边组成。结点分为内部结点和叶结点,其中每个内部结点表示一个特征或属性,叶结点表示类别。从顶部根结点开始,所有样本聚在一起。经过根结点的划分,样本被分到不同的子结点中。再根据子结点的特征进一步划分,直至所有样本都被归到某一个类别(即叶结点)中。决策树:自顶向下,做一个信息熵下降最快的树,使得事件越来越

2020-11-19 22:18:59 1427

原创 机器学习-有监督学习-分类算法:朴素贝叶斯算法(用于文本分类)

一、贝叶斯公式1、贝叶斯公式P(Ax∣B)=P(AxB)P(B)=P(B∣Ax)∗P(Ax)P(B)=P(B∣Ax)∗P(Ax)∑i=0nP(B∣Ai)∗P(Ai)=Ax条件下B的似然概率∗Ax的先验概率事件B的先验概率=Ax条件下B的似然概率∗Ax的先验概率∑i=0nAi条件下B的似然概率∗Ai的先验概率=似然概率∗先验概率标准化常量P(A_x|B)\\=\frac{P(A_xB)}{P(B)}=\frac{P(B|A_x)*P(A_x)}{P(B)}=\frac{P(B|A_x)*P(A_x)}{

2020-11-19 01:51:53 671

原创 机器学习-有监督学习-分类算法:k-近邻(KNN)算法【多分类】【使用场景: 小数据场景/小样本学习,几千~几万样本】【使用faiss库实现快速计算KNN】

K-近邻算法(KNN)概念>**k-近邻算法**:如果一个样本在特征空间中的**k个最相似(即特征空间中最邻近)的样本中的大多数**属于某一个类别,则该样本也属于这个类别。>相似的样本,同一特征的值应该是相近的。>k的取值会影响结果。>就是通过你的"邻居"来判断你属于哪个类别。>如何计算你到你的"邻居"的距离:一般时候,都是使用欧氏距离计算k-近邻距离公式:两个样本的距离可以通过如下公式计算,又叫**欧式距离**。需要事先对数据进行标准化处理。

2020-11-17 21:51:49 2217 1

原创 机器学习-第三方库(工具包):scikit-learn【用于特征工程(主要分为三部分:数据预处理、特征选择、降维)】【Sklearn模块中包含常用的算法】

Python语言的机器学习工具Scikit-learn包括许多知名的机器学习算法的实现(算法原理一定要懂)Scikit-learn文档完善,容易上手,丰富的API,使其在学术界颇受欢迎。一、特征抽取 (使用scikit-learn进行数据的特征抽取)1、字典类型数据----特征抽取使用类:sklearn.feature_extraction.DictVectorizersklearn.feature_extraction.DictVectorizer的作用:对字典数据进行特征值化。即:把字典里

2020-11-17 00:55:08 3814

原创 Pandas-案例分析(一):电影案例分析

Python语言的机器学习工具Scikit-learn包括许多知名的机器学习算法的实现(算法原理一定要懂)Scikit-learn文档完善,容易上手,丰富的API,使其在学术界颇受欢迎。一、特征抽取 (使用scikit-learn进行数据的特征抽取)1、字典类型数据----特征抽取使用类:sklearn.feature_extraction.DictVectorizersklearn.feature_extraction.DictVectorizer的作用:对字典数据进行特征值化。即:把字典里

2020-11-17 00:44:33 1942

原创 数学-概率与统计-随机过程-总结(五):更新过程

数学-随机过程-总结(五):更新过程

2020-11-12 23:49:00 437

原创 随机过程(三):马尔可夫过程、马尔可夫链、转移概率、转移概率矩阵、平稳性、齐次性、时齐性、一步转移概率、一步转移概率矩阵、C-K方程、n步转移概率、n步转移概率矩阵、遍历性、极限分布、平稳分布

数学-随机过程-总结(四):连续时间的马尔可夫链

2020-11-12 23:44:17 3965

原创 数学-概率与统计-随机过程-总结(三):泊松过程

1 马尔可夫过程及其概率分布2 多步转移概率的确定3 遍历性

2020-11-12 23:43:42 455

原创 随机过程(二):平稳随机过程

1 马尔可夫过程及其概率分布2 多步转移概率的确定3 遍历性

2020-11-12 23:40:23 525

原创 随机过程(一)-随机过程及其统计描述:随机过程{X(t,e),t∈T}、状态空间、样本函数/样本曲线、伯努利过程、离散型随机过程、连续性随机过程、正交增量过程、高斯过程、泊松过程、维纳过程

1 随机过程的概念2 随机过程的统计描述3 泊松过程及维纳过程

2020-11-12 23:39:47 944

原创 数理统计(四)-方差分析及回归分析:总变差分解【总变差=方差+效应A平方和+效应B平方和+AB交互效应平方和】、线性回归模型、回归方程、残差、残差平方和、σ的无偏估计、多元线性回归模型、非线性回归模型

1 单因素试验的方差分析2 双因素试验的方差分析3 一元线性回归4 多元线性回归

2020-11-12 23:37:33 2627

原创 数理统计(三)-假设检验:显著性水平α、检验统计量、原假设、备择假设、拒绝域、临界点、第Ⅰ类错误、第Ⅱ类错误、【检验μ、检方差、检验分布】、临界值法【Z检验法、t检验法、卡方检验法、F检验法】、p值法

1 假设检验2 正态总体均值的假设检验3 正态总体方差的假设检验4 置信区间与假设检验之间的关系5 样本容量的选取6 分布拟合检验7 秩和检验8 假设检验问题的户值检验法

2020-11-12 23:36:53 1533

原创 数理统计(二)-参数估计:点估计【矩估计法、最大似然估计法(似然函数、对数似然函数、牛顿-拉弗森迭代算法、拟牛顿迭代算法)】、区间估计【双侧置信区间、单侧置信区间、置信水平、枢轴量、枢轴量的分布】

1 点估计2 基于截尾样本的最大似然估计3 估计量的评选标准4 区间估计5 正态总体均值与方差的区间估计6 (0-1)分布参数的区间估计7 单侧置信区间

2020-11-12 23:36:00 565

原创 数理统计(一)-样本及抽样分布:总体、容量、样本、样本值、直方图、箱线图、四分位数、疑似异常值、修正箱线图、样本统计量【平均值、方差、标准差、k阶矩、中心距】、抽样分布【卡方分布、t分布、F分布】

数学-概率与统计-总结(六):样本及抽样分布

2020-11-09 22:44:39 676

原创 概率论(五):大数定律【弱大数定律、伯努利大数定理】、中心极限定理【独立同分布中心极限定理、Lyapunov中心极限定理、Moivre-Laplace中心极限定理】

数学-概率与统计-总结(五):大数定律及中心极限定理

2020-11-09 22:44:01 897

原创 概率论(四)-随机变量的数字特征:数学期望值/均值E(X)、方差Var(X)、标准差σ(X)、切比雪夫不等式、协方差Cov(X,Y)、相关系数ρ、独立与相关、k阶矩、中心距、混合矩、协方差矩阵

数学-概率与统计-总结(四):随机变量的数字特征

2020-11-09 22:43:21 514

原创 概率论(三)-多维随机变量及其分布:n维随机变量、概率分布函数F(x1,x2,..xn)、联合分布律、联合概率密度、边缘分布律、边缘概率密度、条件分布律、条件概率密度、β函数、Γ函数、max{X,Y}

1 二维随机变量2 边缘分布3 条件分布4 相互独立的随机变量5 两个随机变量的函数的分布

2020-11-09 22:42:45 1627

原创 概率论(二)-随机变量及其分布:分布函数F(x)、离散型随机变量【分布律:(0-1)分布、二项分布、泊松分布】、连续型随机变量【概率密度:均匀分布、指数分布、正态/高斯分布】、3σ法则、偏度、峰度

1 随机变量2 离散型随机变量及其分布律3 随机变量的分布函数4 连续型随机变量及其概率密度5 随机变量的函数的分布

2020-11-09 22:42:06 619

原创 概率论(一)-概率论的基本概念:样本空间、随机事件、和事件、积事件、互斥事件、对立事件、频率、概率、加法定理、等可能概型、条件概率、乘法定理、全概率公式、贝叶斯公式、先验概率、后验概率、相互独立性

人工智能-机器学习-数学-概率与统计-总结(一):概率论的基本概念

2020-11-09 22:37:42 855

《Approaching (Almost) Any Machine Learning Problem》

《Approaching (Almost) Any Machine Learning Problem》

2023-09-13

中文小说短句序列文本复述数据集

中文小说短句序列文本复述数据集

2023-07-29

时间序列预测-第六届全国工业互联网数据创新应用大赛:工业生产反应装置的建模预测

第六届全国工业互联网数据创新应用大赛:工业生产反应装置的建模预测

2023-02-26

clustering-test-data

文本聚类测试数据

2022-11-17

stop-words.txt

stop_words.txt

2022-11-17

strawberry-perl-5.10.1.0.msi

strawberry-perl-5.10.1.0.msi

2022-02-19

strawberry-perl-5.10.1.0.msi

strawberry-perl-5.10.1.0.msi

2022-02-19

英文单词拼写混淆集:spell-errors.txt

英文单词拼写混淆集:spell-errors.txt

2021-04-05

带有词频的词典库:vocab.txt

带有词频的词典库:vocab.txt

2021-04-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除