数字内容安全期末复习知识点

①行间距编码:行间距编码利用文本的行间距携带水印信息,一般在文本中每隔一行轮流地嵌入水印信息,嵌入信息行的相邻上下2行位置不动,作为参照,需嵌入信息的行根据水印数据的比特流进行轻微的上移和下移,在移动过的一行中编码一个信息比特。

②字间距编码:字间距编码方法是在编码过程中,将文本某行中的一个单词水平左移或右移来嵌入水印信息,而与其相邻的单词并不移动,作为解码过程中的位置参考

③特征编码:特征编码通过改变文档中某个字母的某一特征来嵌入标记,这些特征可以是各种各样的:字体,颜色,大小,下划线,笔画高度和方向

④不可见编码:基于不可见的水印方法是唯一适用于非格式化文档的基于文档结构的方法,一般将信息编码隐藏在字处理系统的断行处。行尾是否有空格在视觉上难以区分,提取时可通过不可见编码的有无及数目进行解码

基于自然语言文本水印方法

①基于句法结构的自然语言文本水印算法

该方法主要是对句子的句法结构进行转换以嵌入水印,其中公认的,最常用的变换方式有以下4种:移动附加语位置,加入形式主语,主动变被动,添加透明短语

②基于语义的自然语言文本水印算法

主要是在基于对句子深层的理解的基础上对句子进行变换,以达到在文本中加入水印的方法

3.简述文本隐写术和水印技术的异同

4.什么是文本过滤和文本分类?两者之间有什么联系?

文本过滤是自动归类,文本分类是自动聚类;但二者都是为了保护文本内容安全。

5.谈谈你对文本隐写分析的理解

文本隐写分析是对文本隐写技术进行检测,主要包括针对两种隐写方法的监测,也有一定的缺点。

6.如何实现对文本内容的加密?

7.基于文档结构的各种文本水印方法的优缺点

①行间距编码方法的容量最小,其鲁棒性相对最好

②字间距编码水印方法的不可见性好于行间距编码,但鲁棒性减弱,相应增加了提取的复杂度

③特征编码法在水印容量方面有明显的优势,有着非常好的不可见性,也很难被攻击者去除,但其受噪声影响大,鲁棒性不佳,在提取时较前2种方法更加复杂和困难

④空格编码不易引起词句的改变和读者的注意,但是容量太小,而且有的编辑会自动删除多余的空格。

值得注意的是这4种方法都只是停留在文本的表层。由于它们都是空间域的方法,安全性主要靠空间格式的隐蔽性来保证,无法抵抗对于文本结构和格式的攻击,简单的重录攻击就能使之失效,因此这些水印方案普遍存在抗攻击性不强,鲁棒性较差的缺点。

8.文本自动分词算法–基于理解的分词方法

现有的分词算法可分为三大类,即基于字符串匹配的分词算法,基于理解的分词方法和基于统计的分词方法

基于理解的分词方法:从文本d中逐句提取,对于每个句子s1从左向右以MaxLen为界选出候选字串w,如果w在词典中,处理下一个长为MaxLen的候选字段,否则将w最右边的一个字去掉,继续与词典比较;s1切分完之后,构成词的字符串或者此时w已经成为单字,用分隔符隔开输出给s2。从s1中减去w,继续处理后续的字串。s1处理结束后,取下中的下一个句子赋给s1,重复前述步骤,直到整篇文章d都切分完毕。

9.文本表示模型–向量空间模型VSM

文本表示模型有布尔模型,向量空间模型,概率模型,潜在语义索引模型和特征项粒度。

向量空间模型:向量空间模型建立在线性代数理论之上,基于这种模型每篇文档都形式化为高维特征空间中的一个向量,对应特征空间中的一个点,向量的每一维表示一个特征,这个特征可以是一个字,一个词,一个短语或某个复杂的结构。

在一个文档d中,每个特征项t都被赋予一个权重W,以表示这个特征项在该文档中的重要程度。权重都是以特征项的频率为基础进行计算的,经典的权重定义公式是TF*IDF,其中TF为词频,表示t在文档d中出现的次数;IDF为特征项的文档频率,将其定义为IDF=log(N/n),N表示文档集合中所有的文档数目,n表示整个文档集合中出现t的文档数。TF反映了特征项在文档内部的局部分布情况,IDF反映了特征项在整个文档集中的全局分布情况。TF*IDF公式可以反映特征项在文档表达中的重要程度

文档表示为特征向量后,文本之间的语句距离或者语义相似度就可以通过空间中的这两个向量的集合关系度量。在向量空间中,通常用空间中的两个向量的夹角余弦值来度量文档之间的语义相似度,夹角余弦值越大,两个向量在空间中的夹角就越小表示它们的语义距离就越小,两个文档就越相似。

向量空间模型的优点在于:将文本简化为特征项以及权重集合的向量表示,从而把文本的处理转换为向量空间上的向量运算,使得问题的复杂度大为降

  • 17
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值