![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 89
游离态GLZ不可能是金融技术宅
这个作者很懒,什么都没留下…
展开
-
P-tuning的论文大白话阅读笔记和代码实现
P-tuning论文笔记与代码实现原创 2022-05-30 22:35:36 · 1468 阅读 · 4 评论 -
CRF原理的理解与举例分析
CRF原理的理解与举例分析1.以词性标注为例说明CRF的任务目标2.CRF的特征函数3. 从特征函数到概率4. VS逻辑回归5. VS HMM1.以词性标注为例说明CRF的任务目标句子BobdrankcoffeeatStarbucks可能的标注1名词动词名词介词名词可能的标注2名词动词动词介词名词……………一个长度为k的句子,有m种词性,则有kmk^mkm种可能的标注方法。针对上述例子,第一种显然优于第二种,因为动词+动词这种形原创 2021-01-18 17:25:22 · 650 阅读 · 1 评论 -
如何用MeCab训练一套中文分词软件
MeCab是一套采用CRF算法的开源日文分词软件(内嵌CRF++),由于其使用算法的通用性,可以通过其他语言的语料词典和基于对语言了解所设定的模板,利用MeCab训练日文以外的语言分词软件。本文则以中文为例,记录训练的流程方法。参考:https://zhuanlan.zhihu.com/p/86884557MeCab原理和设计参考:日文分词器 Mecab 文档MeCab设计结构:1.准备1.1 语料库准备采用icwb2-data数据集中提供的中文词库1.2 工作文件夹准备首先在icwb2-原创 2021-01-06 13:18:30 · 783 阅读 · 0 评论 -
Transformer原理个人解读
文章目录1.为什么要有Transformer1.1 传统RNN-Based Model的缺点(1)不支持并行,效率低(2) 记忆能力有限1.2 Attention方法的出现2.Transformer的原理与结构Transformer的Attention——Self-Attention1.为什么要有Transformer任何一个新事物的出现都来源于对于传统方法的批判和新技术基础的出现。1.1 传统RNN-Based Model的缺点以NLP任务为背景,来分析一下传统RNN-Based Model的缺点原创 2020-12-01 22:30:32 · 505 阅读 · 0 评论 -
Attention的基本原理与模型结构
我们尝试用人记忆和理解事物的方式来思考人工智能:在这里插入图片描述为什么我们需要引入这种Attention机制:以seq2seq为例:传统的seq2seq可以理解为让RNN从左往右看一遍要Encode的序列,并将记忆不断存入隐藏层。但是隐藏层的维度是有限的,就像人类的记忆力有限,当序列很长时,读到最后一个word时很可能已经对开头的word发生遗忘,要以看一遍的记忆完整复述整个序列或者对序列做翻译等操作,是存在局限的。因此我们可以借助人类产生工作记忆的方式,在decode时计算当前隐藏层和之前序列原创 2020-11-28 16:39:42 · 374 阅读 · 0 评论 -
论文阅读笔记:Graph Matching Networks for Learning the Similarity of Graph Structured Objects
论文做的是用于图匹配的神经网络研究,作者做出了两点贡献:证明GNN可以经过训练,产生嵌入graph-leve的向量可以用于相似性计算。作者提出了一种新的基于注意力的跨图匹配机制GMN(cross-graph attention-based matching mechanism),来计算出一对图之间的相似度评分。(核心创新点)论文证明了该模型在不同领域的有效性,包括具有挑战性的基于控制流图(control-flow-graph)的函数相似性搜索问题、软件系统漏洞检测。实验分析表明,图匹配模型不仅能够原创 2020-10-15 13:08:08 · 2089 阅读 · 2 评论 -
维特比算法的简单理解——以分词算法为例
在中文分词任务中,一个很棘手的问题是中文词中字组合的复杂性。例如句子:南京市长江大桥,这句话可以有多种分词方法都说的通:(1)南京市/长江大桥(2)南京/市长/江大桥在基于规则匹配的分词法中, 如果多种分法的词在词典中都能找得到,则会有多种可能。我们可以基于统计概率来得到每个词的概率,以此得到分词结果的概率。p(南京市/长江大桥)=p(南京市)p(长江大桥)p(南京/市长/江大桥)=p(南京)p(市长)p(江大桥)p(南京市/长江大桥) = p(南京市)p(长江大桥)\\p(南京/市长/江大原创 2020-06-26 11:51:32 · 483 阅读 · 0 评论 -
为什么机器学习(八)——来一发随机森林
随机森林是一种典型的集成学习算法。顾名思义,森林是很多棵树构成的,随机森林是多棵决策树构成的。类似治病会诊,会诊时会有很多医生每人给一个意见,最终投票选出最多人认可的意见。随机森林则是由每个决策树给出一个意见,最终投票最多的意见作为预测值。决策树的原理本质是一种贪心算法,每次遍历特征值可分割点,通过基尼系数等方式计算信息增益,找到最大信息增益并以此特征分割点分割。知道最大信息增益低于阈值时停止。随机森林使用了Bootstrap随机抽样,本质是一种抽取n次(n为样本数量)有放回的抽样。其中每次没抽中的概率原创 2020-05-30 22:13:39 · 235 阅读 · 0 评论 -
为什么机器学习(七)——一起快乐手推SVM
手写代码实现:import timeimport numpy as npimport mathimport randomdef loadDataSet(filename): dataArr = [] labelArr= [] with open(filename,'r') as f: for line in f.readlines(): line = line.split() dataArr.app...原创 2020-05-24 22:12:00 · 247 阅读 · 0 评论 -
为什么机器学习(六) —— 数据降维LDA线性判别分析原理
因此,LDA降维的套路是:(1)求各个类的均值向量和总的均值向量(2)求类间散布矩阵SBS_BSB和类内散布矩阵SwS_wSw(3)计算矩阵乘法S=Sw−1SBS = S_w^{-1}S_BS=Sw−1SB(4)对S进行特征值分解,得到特征值和特征向量(5)若想降到k维,则按特征值从大到小排序,把前k个特征向量作为行构建投影矩阵W,xnew=x∗WW,x_{new} = x ...原创 2020-05-07 23:17:20 · 227 阅读 · 0 评论 -
为什么机器学习(五) —— 数据降维PCA原理
因此,PCA的过程如下:(1)白化:求样本的均值向量,所有向量减去均值向量(2)计算数据集的协方差矩阵(3)求解特征值和特征向量(4)按特征值大小排序,选取前k名的特征向量(k为降成的维度),以这些向量为行,构造投影矩阵(5)新数据 = 投影矩阵*原数据用PCA处理Iris数据集,4维降为2维import numpy as npimport pandas as pdimport...原创 2020-05-06 17:13:40 · 469 阅读 · 0 评论 -
为什么机器学习(四)—— 朴素贝叶斯的“训练”为什么这么轻松
为什么机器学习(四)—— 朴素贝叶斯的“训练”为什么这么轻松续着上一篇说到的Iris数据集多分类问题,基于softmax的逻辑回归分类需要通过数据训练一轮轮地降低损失函数,以获得最佳的参数w和b。而对于朴素贝叶斯算法来说,其核心源于贝叶斯公式,这个伟大的业余(?)数学家贝叶斯的著名公式:P(a∣b)=P(b∣a)P(a)P(b)\begin{aligned}P(a|b) = \frac...原创 2020-03-28 21:13:38 · 1231 阅读 · 0 评论 -
为什么机器学习(三)—— 为什么softmax这样求导
为什么机器学习(三)—— 为什么softmax这样求导最近机器学习课有个作业是实现softmax多分类鸢尾花数据集,之前从来没推过softmax的公式,直接拿来用了,好好研究了一下,发现这个原理的推导还是有不少复杂的东西,分享一下结果,公式比较复杂,直接上手写了。...原创 2020-03-28 15:38:17 · 246 阅读 · 0 评论 -
为什么机器学习(二)—— 为什么说欠拟合和过拟合会导致模型不准确
为什么说欠拟合和过拟合会导致模型不准确学习机器学习理论的时候很多教材都会提到欠拟合和过拟合的问题。如上图所示,蓝色虚线代表过拟合的情况,黑色实线代表欠拟合的情况。欠拟合是模型过于简单或者特征太少而导致模型不能很好描述数据和结论的关系;过拟合是模型过于复杂或者特征过多而到导致模型过度关心数据里的噪声。感性上的认识是这样的,但是欠拟合和过拟合是如何影响模型预测效果的,如何定量的表示他们的影响...原创 2020-03-14 16:39:50 · 615 阅读 · 0 评论 -
为什么机器学习(一)——Hessian矩阵的正定性为什么可以决定函数是否有极值
为什么机器学习(一)——Hessian矩阵的正定性为什么可以决定函数是否有极值在学习机器学习的过程中,我们不可绕开的是训练模型的时候怎么找到损失函数的极值。可能大家都曾记住过这样一个结论:若M点处函数的梯度为0,则M为驻点,那么:(1)Hessian矩阵正定=>函数在M点有极小值(2)Hessian矩阵负定=>函数在M点有极大值(3)Hessian矩阵不定=>M点不是极...原创 2020-03-09 14:17:48 · 3764 阅读 · 0 评论