注意
请在
unix like
系统下运行下面的程序请安装
python
和python-docx
请先详细阅读
Readme
若程序出错,试着改宏定义。
侧写用内存保存,当目录下文件过多,或者文件过大会导致问题。
切换
n-grams
和n-word
请先make clean
源码
Github He11oLiu/TextSimilarity
准备工作
根据参考文献[1],文本相似度计算的方法主要有两种
- 余弦定律
- Jaccard index
余弦定律
从参考资料[3]
- 文本1中出现的字有: Z1C1,Z1C2…Z1Cn
- 在文本中出现的次数有: Z1n1,Z1n2…Z1nn