word文档查重_教你一招,不再纠结论文表格、公式查重问题!

643ea86cc95159c502bbc9de756938d6.png

经常会有同学留言问到一些查重的问题。

452446dba259f818c5cd90cea84716c4.png

对于哪些地方会被查重,你都清楚吗。

今天,我们就来聊一下吧:)

db463a1994284c355b68c5fc6b0a51b6.gif

01

知网查重范围是什么?

答:知网只查重“文字”部分。

不清楚?

来试试“仅保留文本”方法,直接呈现出会被查重的部分!

打开论文,”ctrl“+”A“全选,新建一个word文档,右键粘贴选择”仅保留文本“。

2bdf94bc323a0ca02f488bb96af62601.png

此时显示的部分就是会被查重的。

02

表格会被查重吗?

我们用一份论文为例子,采取上述的方法,就能知道答案了。

8c2f5fd128f6862d08b2db232fe1085b.png

显然,表格部分的文字一样会被查重

03

公式也会查重吗?

这里说的公式,主要是指word自带编辑器或mathtype编辑的公式,非图片格式。

4b79aed4c62063cca41cf39de4155cec.png

尽管在”仅保留文字“处理后,公式会呈现些乱码,但主要的字母符号都还在,因此公式也是会纳入查重规范的。

04

网上秘方“公式编辑器”有用吗

网上在对于论文降重秘方,有人给出了这么个回答:公式编辑器。

af144f40c31419bfcea28dd37ea0385c.png

我们实践一下:

f09fd5d425c34f35f6667b72c4027e68.png

如图,使用公式编辑器出来的文字效果和普通文本没啥区别。

那么,我们用”仅保留文字“来检验一下:

5ec620e3eb768ab8201497b1ed69416e.png

显然,公式编辑器的套路同样行不通~

05

不会被查重的格式还有啥?

那么存在不会被查重的格式吗?

存在的。

——图片啊。

e50883340ba0276d31906aae44dd71b3.gif

其实,还有一种:文本框

在我之前谈的降重套路中,提到说:介绍性专业术语用文本框处理,可避免查重。

32d4e7f192906c7e932b8e69299b4fe3.png

我当时是在图片里应用文本框,也算不上”作弊“,只是尽可能减少介绍性专业词汇出现在正文里。

文本框不会被查重检测,这是确确实实的。

以会被查重的表格为例子,应用上文本框是这样的:

10483f93c77946fbbcedacb92ec764b6.png

二者在外观上,同样没啥区别。

用”仅保留文字“来演示一下,就会发现文本框里的东西并不会出现,因此不会被查重。

7f129e33b33f88c5113a1438991814a0.png

也许会有人问,文本框和图片似乎没啥差别?

系统在处理文本框时,也许是简单的归类为图片而不检测。

文本框和图片之间,还是很有区别的。

其一,文本框里的东西可编辑。

有的人为避免查重,很硬核地直径二将表格和公式都变成图片来处理。

图片里的内容是不可编辑的。

因此,采用文本框,对后续的修改和调整,都简单方便很多。

再者,文本框容易过老师那一关。

论文基本都是需要经过指导老师的初审核的。

假如论文中的表格或者公式,全都是图片,

那么老师很大概率会让你用自己老老实实重做一次。

文本框形式中的表格、公式都是是可以编辑的,自然就不会被老师吐槽了。

最后,

我个人只建议文本框用来做介绍性专业词汇的飘红处理。

毕竟毕业论文是我们在校期间最后一份答卷,还是需要认认真真去对待的。

以上。

-END-

作者介绍

引人注目的黄,向芽塔主编,真·伪命题研究社成员,一个喜欢在深夜看美食节目的学渣。向芽塔(ID:XiangYadeta),致力于给高校生做有用、有趣分享,虽说授人以鱼不如授人以渔,但我们不仅想给你渔,也想给你鱼。

往期文章:关注公众号可查阅。

3432b86a4f0454fa5ca587bb4c97e668.png

39413da1ce9eda1b2917189896e472bf.png

e9a6e0b4aee8cea0e35cfc646f776565.png

这几天会整理出论文降重套路系列,想看的记得关注鸭

6c7ed3bfaa43753e9c5fad56c01f8823.png
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 要实现Java中的word内容查重,可以采取以下步骤: 1. 导入Apache POI库:在Java代码中使用Apache POI库来操作word文档。可以在代码中引入相关的jar包或添加相关的依赖项。 2. 读取word文档:使用Apache POI库的XWPFDocument类和XWPFParagraph类来读取word文档内容。可以通过遍历文档中的段落和句子,将文本内容提取出来。 3. 文本处理:将提取出来的文本内容进行处理,例如去除标点符号、空格、换行符等。可以使用正则表达式来匹配并替换非文字部分。 4. 查重算法:采取合适的算法对处理后的文本内容进行查重。常用的算法有哈希算法、余弦相似度算法等。可以根据具体需求选择适合的算法。 5. 定义查重阈值:根据需要,定义查重的阈值。如果两个文本的相似度超过阈值,则判断为重复内容。 6. 比较文本内容:将每个文本与其他文本进行比较,计算它们之间的相似度。可以使用for循环嵌套,逐个比较。 7. 输出结果:根据查重结果,将重复的文本内容进行标记或输出。可以将结果打印到控制台或写入到其他文件。 需要注意的是,以上步骤中的第3、4、5步是实现查重的核心步骤,可以根据具体需求选择不同的文本处理和查重算法。另外,还可以通过优化算法和并行处理等方式提高查重的效率。 ### 回答2: 要实现Java的word内容查重主要有以下几个步骤: 1. 读取文档:首先,我们需要使用Java中的文件读取功能,将需要比较的Word文档读取到程序中。可以使用Apache POI库来实现Word文件的读取。 2. 文本提取:接下来,我们需要将Word文档中的内容进行提取,以便后续的比较。可以使用POI库提供的API来提取文本,可以将每个段落或者每个单词作为一个比较的单位。 3. 数据存储:将提取的文本内容存储到合适的数据结构中,例如List或者Set。这样可以方便后续的比较操作。可以使用Java集合框架来实现。 4. 比较查重:对于存储了文本内容的数据结构,我们可以使用遍历或者循环的方式进行比较。可以比较每个段落或者每个单词是否相同或者相似。可以使用字符串比较的相关方法,例如equals方法、contains方法等。 5. 输出结果:最后,根据比较结果将重复的内容输出。可以将重复的文本内容存储到一个新的数据结构中,例如新建一个List,将重复的内容添加进去。然后根据需要,可以将重复内容输出到文件、显示在程序界面上等。 总结起来,实现Java的word内容查重需要使用文件读取功能、文本提取、数据存储和比较等步骤。可以使用Apache POI库来读取Word文档,并使用Java集合框架来存储和比较文本内容。最终,根据比较结果输出重复的内容。 ### 回答3: Java可以通过以下步骤实现Word内容查重: 1. 读取Word文档:使用Java的Apache POI库可以读取Word文档内容。首先,需要导入POI库的相关jar文件。使用POI库的XWPFDocument类可以打开Word文档,使用XWPFParagraph类可以获取文档中的段落,使用XWPFRun类可以获取段落中的文本。 2. 提取文本内容:将文档中的文本提取出来,去除文本中的标点符号、空格等干扰符号,只保留字母和数字,将文本转换为小写,以便后续的比较。 3. 构建比较算法:可以使用哈希算法(如MD5)或者字符串比较算法(如Levenshtein距离算法)进行文本比较。哈希算法将文本内容转换为一个唯一的哈希值,可以通过比较哈希值来判断文本是否重复。字符串比较算法可以比较两个字符串的相似度,从而判断文本是否重复。 4. 执行查重操作:将提取出的文本内容进行比较。可以将文本放入哈希表中,通过比较哈希值来判断文本是否重复。或者,将提取出的文本与已有的文本进行比较,使用相似度阈值来判断文本是否重复。 5. 输出结果:将查重结果输出到控制台或者保存到文件中。可以输出重复的文本内容或者输出重复的文本所在的位置和行数。 总之,利用Java的POI库读取Word文档,提取文本内容,并使用适当的比较算法进行文本比较,可以实现Word内容查重

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值