lab
史前大洪水
Aye
展开
-
基于结巴分词的基础中文词语去歧实现
词语消歧工作即根据一句话或一段话中的上下文,对某些存在多个意思的词语,自动的选择出合适当前语境的词义。eg:打人,打车,打基础。均属于打字的不同意义。基础阶段,采用的思路是爬虫-去停用词-分词-建立字典-抓取文本中关键词-参照字典对比-返回标签。以下代码可以实现对打字的区分。分词工具用的结巴。字典仅采用了结巴分词中自带的字典,未完全建立。# -*- coding: utf-8 -*-#----原创 2017-07-04 19:10:33 · 531 阅读 · 0 评论 -
word2vec已训练好的模型添加新学习样本问题
最近写论文在看word2vec工具,训练了一个自己的模型出来,网上的资料说到已训练出来的模型word2vec是支持在不重新训练的情况下再继续添加新文本进行训练补充的(online learning),但照网上的方法出现了一些问题参考博客:http://qiuqingyu.cn/2017/03/14/Word2vec%E8%AE%AD%E7%BB%83%E5%A5%BD%E7%9A%84%E...原创 2018-11-21 09:46:21 · 5604 阅读 · 6 评论 -
硕士毕业论文查重tips
最近完成了毕业论文的初稿,记录一下个人查重过程的一些情况,学校的要求是知网查重。对于感觉重复率会比较高的章节,例如相关工作,背景知识等,先用了paperpass进行了一次查重paperpass价格比较便宜,建议只查一次,修改后无须复查,没必要,重复率以知网为准,这次只是为了定位重复率高的部分以便修改 paperpass只能给出提交的文字的整体重复率 根据paperpass的报告,先对检...原创 2019-03-20 15:45:41 · 850 阅读 · 0 评论