matlab批量修改txt内容_批量修改采集内容标题???

a00d6226f83cd8ebdb496e7a9a567b3d.png

这是一批来自采集内容的标题,因为“重复标题”比“重复正文”,后果严重一些。

所以对标题,进行二次处理,争取和原始标题,意思差不多,但又有些区别。

尝试第一招:片段颠倒

既已标点符号分割标题,然后再随机打乱。

结果“卒”812ad66e4e684f24fee6dc3af8180c1f.png

161595ef302fdfc2a56b42a505c7ac85.png

片段打乱后,通过“百度短文本相似度AI”跑一下,这就是100%一样啊

所以百度看待标题,不是一段str,而是str分词后的list,str再怎么乱,其list是一致的。

所以外面一些程序,比如采集一篇新闻,按段落打乱,或按句子打乱,都是无效的。

尝试第二招:二次翻译

3d314116233dda2f50d1e80476b98357.png

结果“卒”812ad66e4e684f24fee6dc3af8180c1f.png

有些结果过于魔幻,曲解了原标题的本意,甚至是完全没有可读性。

也许看截图里的效果还行,但是我这里测试的几百个标题,没有可读性的比例,目测还挺多的

尝试第三招:同义词替换

be9d051533064fe07287fb8dee6051dd.png

结果“略有尴尬”。

目测大部分满足可读,但是尴尬的是,有些词替换不是近义词,而是反义词。

由于近义词模块用的synonyms(主要是因为不花钱),可能该模块所定义的“近义”,是机器学习层面的‘相似性’,比如‘低调’和‘高调’经常出现在同一篇文档,则判定‘高调’是‘低调’的近义词

如果用汉语层面的近义词,比如用新华字典的近义词API(如果有的话),来替换当前的synonyms,应该效果好很多。至少不会将“低调”,替换成“高调”...

虽然相似度没有拉开很大,但总比“完全重复”强。

也并不是所有分词后的词项都进行同义词替换,为了满足大部分标题修改后,具备可读性,做了一些调整:

1)普通名词、动词、形容词、副词、动名词,进行同义词替换

2)一个字的,不做替换

3)助词、拟声词、叹词,删除

4)专有名词,不做替换(比如《人民的名义》)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值