2021-08-262

最新推荐文章于 2024-09-13 16:27:15 发布

师心

最新推荐文章于 2024-09-13 16:27:15 发布

阅读量189

点赞数

分类专栏：论文阅读笔记文章标签：算法机器学习

原文链接：https://blog.csdn.net/qq_39521554/article/details/83062188

版权

论文阅读笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

阅读论文 <<基于系统日志分析的安全事件挖掘技术研究与应用>> 的补充知识

BERT模型讲解
 https://www.jianshu.com/p/9b2826ef8a28

SVM

support vector machines, SVM是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；SVM还包括核技巧，这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。
SVM算法原理。SVM学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。如下图所示， wx+b=0即为分离超平面，对于线性可分的数据集说，这样的超平面有无穷多个（即感知机），但是几何间隔最大的分离超平面却是唯一的。

特征空间

特征空间是指经过特征工程处理过的输入空间，将输入空间中隐藏的特征显现出来。. 比如，SVM的核函数，将输入从输入空间映射到特征空间得到特征向量之间的内积。. 通过在这个特征空间上学习线性支持向量机，实现了在输入空间中对非线性支持向量机的学习
输入空间+输出空间
监督学习中，输入与输出所有可能的取值集合称为输入空间与输出空间。
通常输出空间远小于输入空间
特征空间
每一条样本被称作是一个实例，通常由特征向量表示，所有特征向量存在的空间称为特征空间。
特征空间有时候与输入空间相同，有时候不同，不同的情况是输入空间通过某种映射生成了特征空间。
假设空间
假设空间一般是对于学习到的模型而言的。模型表达了输入到输出的一种映射集合，这个集合就是假设空间，假设空间表明着模型学习的范围。

有监督学习与无监督学习

有监督的核心是分类，无监督的核心是聚类（将数据集合分成由类似的对象组成的多个类）。有监督的工作是选择分类器和确定权值，无监督的工作是密度估计（寻找描述数据统计值），也就是无监督算法只要知道如何计算相似度就可以开始工作了。
有监督学习可分为回归和分类。回归：即给出一堆自变量X和因变量Y，拟合出一个函数，这些自变量X就是特征向量，因变量Y就是标签。而且标签的值连续的，例LR。分类：其数据集，由特征向量X和它们的标签Y组成，当你利用数据训练出模型后，给你一个只知道特征向量不知道标签的数据，让你求它的标签是哪一个？其输出结果是离散的。例如logistics、SVM、KNN等。
无监督学习：我们事先没有任何训练样本，而需要直接对数据进行建模。比如我们去参观一个画展，我们完全对艺术一无所知，但是欣赏完多幅作品之后，我们也能把它们分成不同的派别。无监督学习主要算法是聚类，聚类目的在于把相似的东西聚在一起，主要通过计算样本间和群体间距离得到，主要算法包括Kmeans、层次聚类、EM算法。
https://www.jianshu.com/p/9b2826ef8a28

Hadoop与Spark

Hadoop 成为了典型的大数据批量处理架构,由 HDFS 负责静态数据的存储,并通过 MapReduce 将计算逻辑分配到各数据节点进行数据计算和价值发现
Spark 运算比 Hadoop 的 MapReduce 框架快的原因是因为 Hadoop 在一次 MapReduce 运算之后,会将数据的运算结果从内存写入到磁盘中,第二次 Mapredue 运算时在从磁盘中读取数据,所以其瓶颈在2次运算间的多余 IO 消耗. Spark 则是将数据一直缓存在内存中,直到计算得到最后的结果,再将结果写入到磁盘,所以多次运算的情况下, Spark 是比较快的. 其优化了迭代式工作负载
一个公司可以用Kafka可以收集各种服务的log，通过kafka以统一接口服务的方式开放给各种consumer，例如hadoop、Hbase、Solr等。
通用图形处理器（General-purpose computing on graphics processing units，简称GPGPU），是一种利用处理图形任务的图形处理器来计算原本由中央处理器处理的通用计算任务。这些通用计算常常与图形处理没有任何关系。由于现代图形处理器强大的并行处理能力和可编程流水线，令流处理器可以处理非图形数据。特别在面对单指令流多数据流（SIMD），且数据处理的运算量远大于数据调度和传输的需要时，通用图形处理器在性能上大大超越了传统的中央处理器应用程序。
《A Neural Probabilistic Language Model》1. 能否用数值向量（word vector）来表达自然语言词汇的语义？2. 如何给每个词汇，找到恰当的数值向量？

Deep Bidirectional

《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》五个关键词，分别是 Pre-training、Deep、Bidirectional、Transformers、和 Language Understanding。其中 pre-training 的意思是，作者认为，确实存在通用的语言模型，先用文章预训练通用模型，然后再根据具体应用，用 supervised 训练数据，精加工（fine tuning）模型，使之适用于具体应用。为了区别于针对语言生成的 Language Model，作者给通用的语言模型，取了一个名字，叫语言表征模型 Language Representation Model。论文还提出BERT：即Transformer的双向编码表示来改进基于架构微调的方法。一种新的预训练目标：遮蔽语言模型（masked language model，MLM），来克服上文提到的单向性局限。MLM 的灵感来自 Cloze 任务（Taylor, 1953）。MLM 随机遮蔽模型输入中的一些 token，目标在于仅基于遮蔽词的语境来预测其原始词汇 id。与从左到右的语言模型预训练不同，MLM 目标允许表征融合左右两侧的语境，从而预训练一个深度双向 Transformer。除了遮蔽语言模型之外，本文作者还引入了一个“下一句预测”（next sentence prediction）任务，可以和MLM共同预训练文本对的表示。
选择实现语言表征目标的模型。作者提议，用 Deep Bidirectional Transformers 模型。假如给一个句子 “能实现语言表征[mask]的模型”，遮盖住其中“目标”一词。从前往后预测[mask]，也就是用“能/实现/语言/表征”，来预测[mask]；或者，从后往前预测[mask]，也就是用“模型/的”，来预测[mask]，称之为单向预测 unidirectional。单向预测，不能完整地理解整个语句的语义。于是研究者们尝试双向预测。把从前往后，与从后往前的两个预测，拼接在一起 [mask1/mask2]，这就是双向预测 bi-directional。细节参阅《Neural Machine Translation by Jointly Learning to Align and Translate》。BERT 的作者认为，bi-directional 仍然不能完整地理解整个语句的语义，更好的办法是用上下文全向来预测[mask]，也就是用 “能/实现/语言/表征/…/的/模型”，来预测[mask]。BERT 作者把上下文全向的预测方法，称之为 deep bi-directional。如何来实现上下文全向预测呢？BERT 的作者建议使用 Transformer 模型。这个模型由《Attention Is All You Need》一文发明。
模型的核心是聚焦机制，对于一个语句，可以同时启用多个聚焦点，而不必局限于从前往后的，或者从后往前的，序列串行处理。不仅要正确地选择模型的结构，而且还要正确地训练模型的参数，这样才能保障模型能够准确地理解语句的语义。BERT 用了两个步骤，试图去正确地训练模型的参数。第一个步骤是把一篇文章中，15% 的词汇遮盖，让模型根据上下文全向地预测被遮盖的词。用第二个步骤继续训练模型的参数。譬如从上述 1 万篇文章中，挑选 20 万对语句，总共 40 万条语句。挑选语句对的时候，其中 210 万对语句，是连续的两条上下文语句，另外 210 万对语句，不是连续的语句。然后让 Transformer 模型来识别这 20 万对语句，哪些是连续的，哪些不连续。
聚焦机制 (Attention)：每次只看输入的一小部分，诸次移动观察范围。 增强学习 (Reinforcement learning)：在训练过程中，根据不可导的反馈，从当前位置产生探索性的采样。本文和前一篇文章中介绍的RAM (Recurrent Visual Attention Model)算法极为相似，但是更侧重数学推导。