基于内容的推荐算法（推荐系统）（二）

最新推荐文章于 2024-05-13 07:45:00 发布

半世浮华殆尽

最新推荐文章于 2024-05-13 07:45:00 发布

阅读量1.3w

点赞数 5

分类专栏：推荐系统文章标签：推荐系统

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_18497785/article/details/53467196

版权

距离上次更新已经不知道有多久了，因为过几日就是中期答辩了，为了不太监开始坚持把这个项目往后做一做。这次我们要做的是什么呢，要先搭建整个开发环境，目前用到的如下：mysql,idea,IKAnalyzer2012_u6(一个开源的分词包，完全够用了)这次我计划先完成最简单的一个推荐系统的设计，目的只为了完成通过余弦相似性来计算文本的相似性，提取特征值采用数据库中最好拆解分析的“原料”列余

摘要由CSDN通过智能技术生成

距离上次更新已经不知道有多久了，因为过几日就是中期答辩了，为了不太监开始坚持把这个项目往后做一做。

这次我们要做的是什么呢，要先搭建整个开发环境，目前用到的如下：mysql,idea,IKAnalyzer2012_u6(一个开源的分词包，完全够用了)

这次我计划先完成最简单的一个推荐系统的设计，目的只为了完成通过余弦相似性来计算文本的相似性，提取特征值采用数据库中最好拆解分析的“原料”列

余弦相似度和tf-idf的参考文章 http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

IKAnalyzer 下载地址http://lxw1234.com/archives/2015/07/422.htm

需要用到的jar包：

上面两个在上面那个下载的文件夹里，导入即可，jdbc的java和mysql的连接用的jar包自己搜着下载吧。

用到的数据库：已经放到我百度云里了https://pan.baidu.com/s/1nv4klM5，格式是mdb也就是微软的access，我使用的是navicat将其转换为mysql的。

数据格式：

我们先上一个现在达到的最终效果

接下来讲如何实现。

首先我设计了三个类，分别是JDBC类用于连接数据库， similarity类用于计算相似度，split类用来完成分词。

先将最重要的部分，similarity类是如何工作的。

我们采用默认的分词方法，随便分一行中的原料列看看效果

菠菜|400克|熟火腿|20克|鸡蛋|50克|海米|20克|熟|冬笋|50克|水|发|冬菇|50克|胡萝卜|50克|

里面有两个方法，getSimilarDegree计算相似度，delUseless是将无用的“50克”这样的删掉。

下面我们举一个实际的例子：

鲜|豆腐|香菇|黑木耳|西红柿|黄瓜|蛋清|

豆腐|小葱|

上面是两样菜谱的原料分词并且去除无用词后，我们怎么算他们两个的相似度呢？

使用余弦的算法我们都很清楚公式，

这个夹角越小，也就是上面的值越逼近1说明两者相似度越高。

注意我们要怎么样构造这个向量空间呢：

最低0.47元/天解锁文章

半世浮华殆尽

关注

5
点赞
踩
39

收藏

觉得还不错? 一键收藏
4
评论
基于内容的推荐算法（推荐系统）（二）

距离上次更新已经不知道有多久了，因为过几日就是中期答辩了，为了不太监开始坚持把这个项目往后做一做。这次我们要做的是什么呢，要先搭建整个开发环境，目前用到的如下：mysql,idea,IKAnalyzer2012_u6(一个开源的分词包，完全够用了)这次我计划先完成最简单的一个推荐系统的设计，目的只为了完成通过余弦相似性来计算文本的相似性，提取特征值采用数据库中最好拆解分析的“原料”列余
复制链接

扫一扫

专栏目录

半世浮华殆尽 CSDN认证博客专家 CSDN认证企业博客

码龄10年

34: 原创

30万+: 周排名

113万+: 总排名

31万+: 访问

: 等级

2961: 积分

403: 粉丝

209: 获赞

70: 评论

727: 收藏

私信

关注

热门文章

分类专栏

运维
副业 6篇
总结 1篇
swiftUI 1篇
移动开发 1篇
iOS 1篇
推荐系统 4篇
自动化 2篇
管理系统 2篇
vue 2篇

最新评论

基于内容的推荐算法（推荐系统）（三）
普通网友: 博主辛苦了，我最近在学习基于内容的推荐算法，可以参照下您的代码吗 1824978383@qq.com
[弹幕词云姬]硬核b站up主一周撸出来的小工具，根据b站弹幕生成词云（一）
CSDN-Ada助手: 非常感谢CSDN博主的分享，这篇博客真的很棒！我觉得这样的小工具对于喜欢b站的用户来说非常有用，可以更好地了解弹幕情况。下一篇博客可以继续探讨b站弹幕的相关技术，比如如何对弹幕进行分析和处理，建议可以写一篇《如何利用Python对b站弹幕进行分析和处理》。相信这样的技术文章对其他用户也会非常有帮助，期待你的下一篇作品！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
新手两周通过Google AdSense的教程分享
weixin_1235: 你好，我的博客：catkin123.com
基于内容的推荐算法（推荐系统）（四）（完结，不填坑了
哈哈哈哈我也在: 大佬求一份源码，感谢！2445973829@qq.com
基于内容的推荐算法（推荐系统）（四）（完结，不填坑了
陌子殇: 下载地址失效了，请问大佬可以麻烦帮忙私发一份嘛，先谢过了，2649345967@qq.com

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。