![c9ca58ab028d8ba2dc6f34d43d2b77e8.png](https://img-blog.csdnimg.cn/img_convert/c9ca58ab028d8ba2dc6f34d43d2b77e8.png)
- 安装simtext库
pip install simtext
- 上文本相似性计算代码
from simtext import similaritytextA = '批量爬取网页,需要根据网页之间URL的规律,利用Python格式化输出的format用法,来构造每页的URL。下面以豆瓣小说的URL为例,来展示批量爬取网页URL的构建'textB = '批量爬取网页,我们应该根据网页之间URL的规律,利用Python格式化输出的format用法,来构造每页的URL。我们以豆瓣小说的URL为例,来构建批量爬取网页的URL'sim = similarity()resp = sim.compute(textA, textB)print(resp)
- 上Jupyter Notebook返回结果
- {'Sim_Cosine': 0.9232476577353843, 'Sim_Jaccard': 0.7916666666666666, 'Sim_MinEdit': 8, 'Sim_Simple': 0.9935404267673101}
- 文本相似性指标含义
- Sim_Cosine: