前些日子,收到了来自老师的毕业论文问候,本着学习的态度就在知识的海洋了疯狂遨游,奈何风太大,差点翻车
于是我就萌发出一种可以自动降重的脚本(别说什么网上降重,没钱!!!),众所周知,论文降重其实就是找近义词。正好,我想起了synonyms中文库寻找近义词
首先就是安装
pip install synonyms
想法是这样的:首先输入一条句子,然后进行分词,找出所有分词的近义词(应该是形容词,后续再弄),在拼接到一块,最后进行句子的相识度展示。
在这个过程中需要解决一些问题,因为synonyms打包的display模块里只有显示,没有返回数据,所以将synonyms的模块进行了一些微调,让它返回数据,如下
def display(word, size=10):
# print("'%s'近义词:" % word)
o = nearby(word, size)
# assert len(o) == 2, "should contain 2 list"
# if len(o[0]) == 0:
# print(" out of vocabulary")
# for k, v in enumerate(o[0]):
# print("%d. %s:%s" % (k + 1, v, o[1][k]))
return o
接下来就是我们的主程序了,简单的不行,这里我把synonyms模块改成了newsyn
import newsyn.newsyn
result = newsyn.newsyn.seg('随着现代信息化、智能制造的快速发展,工业数据在制造企业中呈日益增长趋势。其中标准件的数量更是占据了全部零件数量的绝大部分,而标准件的管理却依然采用着人工手动统计的方式,这种方式不仅浪费人力还容易出现种种差错,影响了制造企业快速设计、制造的趋势。在航空制造企业中,标准件件数量大、参数多,为了提高产品的设计效率,降低产品的开发成本,提高产品在市面上的竞争力,提出利用现代计算机语言创建飞机标准件库存管理系统,增强了企业对标准件的信息化管理。')
print(result[0])
symbol = [',','.',',','。','?','‘','’','“','”','!','、']
str = []
for i in range(3):
sentence = ''
for words in result[0]:
print(words)
if words not in symbol:
word = newsyn.newsyn.display(words)
print(word[0])
if word[0]==[]:
sentence += words
else:
sentence += word[0][i]
else:
sentence += words
str.append(sentence)
print(str)
result = newsyn.newsyn.compare(str[0],str[1])
print('近似度:' , result)
result = newsyn.newsyn.compare(str[0],str[2])
print('近似度:' , result)
结果就是
随着现代信息化、智能制造的快速发展,工业数据在制造企业中呈日益增长趋势。其中标准件的数量更是占据了全部零件数量的绝大部分,而标准件的管理却依然采用着人工手动统计的方式,这种方式不仅浪费人力还容易出现种种差错,影响了制造企业快速设计、制造的趋势。在航空制造企业中,标准件件数量大、参数多,为了提高产品的设计效率,降低产品的开发成本,提高产品在市面上的竞争力,提出利用现代计算机语言创建飞机标准件库存管理系统,增强了企业对标准件的信息化管理。
随著当代信息技术、智能化生产的的迅速经济发展,轻工业信息特别是在生产民营企业之中呈圆形不断增长态势。当中特种玻璃的的数目可谓占有了有全数配件数目的的大部分,因而特种玻璃的的管理工作虽然仍然使用著育苗自动统计数据的的形式,此种形式不但节约物力也难发生诸多疏漏,负面影响了有生产民营企业迅速结构设计、生产的的态势。特别是在航空公司生产民营企业之中,特种玻璃多件数目小、变量少,为的是提升商品的的结构设计工作效率,减少商品的的生产成本,提升商品特别是在市面的的竞争优势,明确提出借助当代计算机语言建立直升机特种玻璃库存量信息系统,进一步增强了有民营企业对于特种玻璃的的信息技术管理工作。
由于近代电子政务、智能家居组装和加速产业发展,化学工业统计数据如在组装中小企业当中呈长不断增加格局。另外盒形和量着实占去了为剩余部件量和绝大多数,因此盒形和行政管理终究依旧选用着大滴灌全自动统计资料和方法,这样方法不光消耗劳力就不易再次出现各种纰漏,冲击了为组装中小企业加速外观设计、组装和格局。如在国际航空组装中小企业当中,盒形万件量多、模块频密,借以降低系列产品和外观设计效能,减低系列产品和投资成本,降低系列产品如在市售和竞争能力,制订借由近代计算机语言创立客机盒形产能系统,提升了为中小企业对个人盒形和电子政务行政管理。
第一个为原文,和第二个和第三个的相识度分别为
近似度: 0.947
近似度: 0.919
话说,这个不能说是一摸一样吧,最后一个简直毫不相干
简单算是一个思路吧,后续再把相关词性进行一些操作,让降重更精确点