2024年最新数字内容安全期末复习知识点

2401_84253894

已于 2024-05-01 11:03:34 修改

阅读量913

点赞数 20

分类专栏：程序员文章标签：安全机器学习决策树

于 2024-05-01 11:03:32 首次发布

本文链接：https://blog.csdn.net/2401_84253894/article/details/138368809

版权

文本隐写分析是对文本隐写技术进行检测，主要包括针对两种隐写方法的监测，也有一定的缺点。

6.如何实现对文本内容的加密？

7.基于文档结构的各种文本水印方法的优缺点

①行间距编码方法的容量最小，其鲁棒性相对最好

②字间距编码水印方法的不可见性好于行间距编码，但鲁棒性减弱，相应增加了提取的复杂度

③特征编码法在水印容量方面有明显的优势，有着非常好的不可见性，也很难被攻击者去除，但其受噪声影响大，鲁棒性不佳，在提取时较前2种方法更加复杂和困难

④空格编码不易引起词句的改变和读者的注意，但是容量太小，而且有的编辑会自动删除多余的空格。

值得注意的是这4种方法都只是停留在文本的表层。由于它们都是空间域的方法，安全性主要靠空间格式的隐蔽性来保证，无法抵抗对于文本结构和格式的攻击，简单的重录攻击就能使之失效，因此这些水印方案普遍存在抗攻击性不强，鲁棒性较差的缺点。

8.文本自动分词算法–基于理解的分词方法

现有的分词算法可分为三大类，即基于字符串匹配的分词算法，基于理解的分词方法和基于统计的分词方法

基于理解的分词方法：从文本d中逐句提取，对于每个句子s1从左向右以MaxLen为界选出候选字串w，如果w在词典中，处理下一个长为MaxLen的候选字段，否则将w最右边的一个字去掉，继续与词典比较；s1切分完之后，构成词的字符串或者此时w已经成为单字，用分隔符隔开输出给s2。从s1中减去w，继续处理后续的字串。s1处理结束后，取下中的下一个句子赋给s1，重复前述步骤，直到整篇文章d都切分完毕。

9.文本表示模型–向量空间模型VSM

文本表示模型有布尔模型，向量空间模型，概率模型，潜在语义索引模型和特征项粒度。

向量空间模型：向量空间模型建立在线性代数理论之上，基于这种模型每篇文档都形式化为高维特征空间中的一个向量，对应特征空间中的一个点，向量的每一维表示一个特征，这个特征可以是一个字，一个词，一个短语或某个复杂的结构。

在一个文档d中，每个特征项t都被赋予一个权重W，以表示这个特征项在该文档中的重要程度。权重都是以特征项的频率为基础进行计算的，经典的权重定义公式是TF*IDF，其中TF为词频，表示t在文档d中出现的次数；IDF为特征项的文档频率，将其定义为IDF=log(N/n)，N表示文档集合中所有的文档数目，n表示整个文档集合中出现t的文档数。TF反映了特征项在文档内部的局部分布情况，IDF反映了特征项在整个文档集中的全局分布情况。TF*IDF公式可以反映特征项在文档表达中的重要程度

文档表示为特征向量后，文本之间的语句距离或者语义相似度就可以通过空间中的这两个向量的集合关系度量。在向量空间中，通常用空间中的两个向量的夹角余弦值来度量文档之间的语义相似度，夹角余弦值越大，两个向量在空间中的夹角就越小表示它们的语义距离就越小，两个文档就越相似。

向量空间模型的优点在于：将文本简化为特征项以及权重集合的向量表示，从而把文本的处理转换为向量空间上的向量运算，使得问题的复杂度大为降低，提高了文本处理的速度。它的缺点也很明显，该模型假设文本向量中的特征词是相互独立的，这一假设在自然语言文本中是不成立的，因此对计算结果的可靠性造成一定的影响。此外，将复杂的语义关系归结为简单的向量结构，丢失了许多有价值的线索。

10.文本分类算法–KNN分类算法

常用文本分类算法有KNN，决策树，SVM，Rocchio分类算法

KNN分类算法又称为K近邻算法。该算法的思想是根据传统的向量空间模型，文本内容被形式化为特征空间中的加权特征向量。对于一个测试文本，计算它与训练样本集中每个文本的相似度，找出K个最相似的文本，根据加权距离来判断测试文本所属的类别。具体算法步骤如下：

①对于一个测试文本，根据特征词形成测试文本向量

②计算该测试文本与训练集中每个文本的文本相似度

③按照文本相似度，在训练文本集中选出与测试文本最相似的K个文本

④在测试文本的K个近邻中，依次计算每类的权重

⑤比较类的权重，将文本分到属于权重最大的那个类别中。

KNN方法基于类比学习，是一种非参数的分类技术，在基于统计的模式识别中非常有效，对于未知和非正态分布可以取得较高的分类准确率，具有鲁棒性，概念清晰。但在文本分类中，KNN方法也存在不足&

最低0.47元/天解锁文章

2401_84253894

关注

20
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
2024年最新数字内容安全期末复习知识点

文本隐写分析是对文本隐写技术进行检测，主要包括针对两种隐写方法的监测，也有一定的缺点。6.如何实现对文本内容的加密？7.基于文档结构的各种文本水印方法的优缺点①行间距编码方法的容量最小，其鲁棒性相对最好②字间距编码水印方法的不可见性好于行间距编码，但鲁棒性减弱，相应增加了提取的复杂度③特征编码法在水印容量方面有明显的优势，有着非常好的不可见性，也很难被攻击者去除，但其受噪声影响大，鲁棒性不佳，在提取时较前2种方法更加复杂和困难。
复制链接

扫一扫

专栏目录