海量数据文本相似度解决方式SimHash+分词方法+基于内容推荐算法

最新推荐文章于 2024-04-02 11:47:08 发布

VIP文章约翰史密斯

最新推荐文章于 2024-04-02 11:47:08 发布

阅读量6.2k

点赞数 1

分类专栏：基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sylar49/article/details/75386510

版权

之前找实习的时候被问到海量数据文本相似度怎么解决，当时很懵，在面试官的引导下说出了hash table+排序的方法（~~是的，我总能智障出新花样~~），当时想的是先做分词再做哈希，然后对标记哈希后的词（这时已是数字）进行排序通过共同的数字来度量它们的好坏。

在翻之前的面试笔记突然看到这个，就来网上找找解决方案，发觉hash没有问题，但后面的确是跑偏了。

常规的解法是SimHash，通过对分好的词进行hash并乘以他们的重要程度进行相加最后进行二值化来表示这一段话，最后通过度量二值化后的数字之间的相似度来度量文本句子的相似度。唯一比较麻烦的是最后需要取阈值来界定相似与否。

说是这么说，但是这个方法我其实还是有疑问的，本质上它是对原本的文本向量做了降维，但是降维后的向量方向凭什么这么设计我其实还是不懂（就是怎么决定哪两个词的方向是相同的）

先撇开这个问题，理解了SimHash的方法，难免就想了解文本相似的“上下文”

SimHash的前提是分词，分词怎么做？

文本相似能够衡量了要怎么应用它?

考虑到自己只了解一些CV的皮毛，找工作可能就不能局限在这个圈子里了，就想要了解下其他领域的业务

首先计算文本相似度的前提是要先能分词，分词的方法主要是两类

一是基于字符串匹配，加入一些启发式的方法将其匹配，时间复杂度为O（n）

二是基于机器学习的分词

（权重怎么来呢？也是通过机器学习&#

最低0.47元/天解锁文章

约翰史密斯

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
海量数据文本相似度解决方式SimHash+分词方法+基于内容推荐算法

之前找实习的时候被问到海量数据文本相似度怎么解决，当时很懵，在面试官的引导下说出了hash table+排序的方法（是的，我总能智障出新花样），当时想的是先做分词再做哈希，然后对标记哈希后的词（这时已是数字）进行排序通过共同的数字来度量它们的好坏。在翻之前的面试笔记突然看到这个，就来网上找找解决方案，发觉hash没有问题，但后面的确是跑偏了。常规的解法是SimHash，通过对分好的词进行h
复制链接

扫一扫

专栏目录

约翰史密斯 CSDN认证博客专家 CSDN认证企业博客

码龄8年

15: 原创

32万+: 周排名

169万+: 总排名

4万+: 访问

: 等级

558: 积分

19: 粉丝

11: 获赞

4: 评论

72: 收藏

私信

关注

热门文章

分类专栏

基础 10篇
刷题
小结 4篇
实践 1篇
论文 1篇

最新评论

朴素贝叶斯（离散型+连续型）
Halosec_Wei: 博主，请问x是什么样的数据格式
纹理特征小结
Blair_B: 请问楼主的toolbox做出来了吗？
朴素贝叶斯（离散型+连续型）
qq_22015805: 这个程序怎么每次运行结果不一样呢
朴素贝叶斯（离散型）
qq_22015805: 您好，您的样本是什么样子啊？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。