开场白
大作业进了自然语言处理的坑,真是毁一生。作业涉及到文本相似度的比较,所以就打算用复旦的这个NLP包,之所以不用哈工大的那个,是因为复旦是友校嘛╮(╯-╰)╭
先讲讲我们作业的应用场景吧,就是根据一个新闻找到他的相关新闻,看上去很简单,甚至直接百度就可以做到。但是后来发现结果并不是很令人满意,于是我们打算基于百度到的结果再对新闻的相关度进行比对。
算法实现
复旦NLP是可以进行机器学习,训练,然后进行相似度的计算的。人家专门有个包是做这个的,但是我们这项目,本身期望不高,就没这么麻烦,于是乎就没有看这个包里面的东西,那除了训练以外,复旦NLP也提供有不需要训练直接计算的接口,那精度跟训练的比较起来如何我也就不知道了,反正能用就好╮(╯-╰)╭
那不训练的算法其实也是看上去很科学的~首先针对两个文本a,b;第一步是调用相关的parser生成两个DependencyTree,至于这个