几个算法使用的实例 -垃圾短信，音乐推荐

最新推荐文章于 2023-09-21 23:45:00 发布

深山猿

最新推荐文章于 2023-09-21 23:45:00 发布

阅读量242

点赞数

分类专栏：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/h2604396739/article/details/103577016

版权

算法专栏收录该内容

24 篇文章 0 订阅

订阅专栏

朴素贝叶斯算法
基于黑名单的过滤器：
号码量少于50万，黑号码名单维护成一个散列表。
如果有500万个号码呢？
方案1:布隆过滤器 5000万bits，
方案2:黑名单存储在服务器，所有判断都通过网络请求判断

基于规则的过滤器，规则如下：
1）特殊词，反动淫秽
2）群发号码，非正常号码
3）短信中汉语微信 qq等

可以基于概率统计的方法，借助计算机强大的计算能力，找出哪些单词最常出现在垃圾短信中，将这些最常出现的单词，作为特殊单词，用来过滤短信。
假设有样本有100万个，神经病出现在100个样本中，其中90个都是垃圾短信，那基本可以确定神经病就是敏感词。

基于概率统计的过滤器：
机器不能像人一样明白短信的意思，但是可以将短信分词；分词之后：获取样本与是否是垃圾短信的概率
p1(是垃圾短信|w1,w2,w3...wn同时出现在短信中) = p(是垃圾短信|w1出现在短信内中)*...*p(是垃圾短信|wn出现在短信内中)
p2(是垃圾短信|w1,w2,w3...wn同时出现在短信中)

如果p1远大于p2（如p1=10*p2），则可以判定为垃圾短信

音乐推荐系统核心
1）找到跟你口味偏好相似的用户，把他们爱听的歌曲推荐给你
2）找出跟你喜欢的歌曲特征相似的歌曲，把这些歌曲推荐给你

怎么定义口味偏好相似的用户？
假设你喜欢的有10首，小明有8首，其中有6首是一样的，那就是相似用户。
怎么定义喜欢一首歌：
按照行为计分，大于8分为喜欢：单曲循环 +5 分享+4 收藏+3 搜索+2 听完+1 没听过0 跳过-1
或：
假设如下图：
此时可以用欧几里得距离来表示相似度，距离越小，口味月一致。

怎么定义相似特征的歌曲？
这里可以过来用人群来评判

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
几个算法使用的实例 -垃圾短信，音乐推荐

朴素贝叶斯算法基于黑名单的过滤器：号码量少于50万，黑号码名单维护成一个散列表。如果有500万个号码呢？方案1:布隆过滤器 5000万bits，方案2:黑名单存储在服务器，所有判断都通过网络请求判断基于规则的过滤器，规则如下：1）特殊词，反动淫秽2）群发号码，非正常号码3）短信中汉语微信 qq等可以基于概率统计的方法，借助计算机强大的计算能力，找出哪些单词最常出现在...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。