算法图解第十、十一章读书笔记

最新推荐文章于 2022-02-28 17:03:11 发布

西祠梧桐

最新推荐文章于 2022-02-28 17:03:11 发布

阅读量147

点赞数

分类专栏：算法算法图解笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/roet80736/article/details/92200540

版权

算法图解笔记同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

K最近邻算法：KNN用于分类和回归，需要考虑最近的邻居。

分类就是编组。

回归就是预测结果。

特征抽取意味着将物品转换为一系列可比较的数字。

能否挑选合适的特征事关KNN算法的成败

余弦相似度不计算两个矢量的距离，而比较它们的角度。适合如下情况：假设有两位品味类似的用户，但其中一位打分时更保守。他们都喜欢Manmohan Desai的电影Amar Akbar Anthony,但Paul给了5星，而Rowan只给了4星，如果用距离公式，这两位用户可能不是邻居，虽然他们的品味非常接近。

OCR识别是基于K最近邻算法。

朴素贝叶斯分类器能计算出邮件为垃圾邮件的概率，其应用领域与KNN相似。

搜索引擎基于反向索引（倒排索引）（inverted index）。

傅里叶变换可创建类似于Shazam这样的音乐识别软件。

并行算法：Hadoop的MapReduce。

布隆过滤器是一种概率型数据结构，它提供的答案有可能不对，但很可能是正确的。为了判断一个网页是否已被搜索引擎搜集，可不使用散列表，使用布隆过滤器。

HyperLogLog 是一种类似于布隆过滤器的算法。如果Google要计算用户执行的不同搜索的数量，可使用此算法。

HyperLogLog近似地计算集合中不同的元素数，与布隆过滤器一样，它不能给出准确的答案，但也八九不离十，占用内存少很多。

Simhash生成的散列值存在细微的差别，这让你能够通过比较散列值来判断两个字符串的相似程度。

线性规划使用Simplex算法，来求一个问题的最优化解，

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
算法图解第十、十一章读书笔记

K最近邻算法：KNN用于分类和回归，需要考虑最近的邻居。分类就是编组。回归就是预测结果。特征抽取意味着将物品转换为一系列可比较的数字。能否挑选合适的特征事关KNN算法的成败余弦相似度不计算两个矢量的距离，而比较它们的角度。适合如下情况：假设有两位品味类似的用户，但其中一位打分时更保守。他们都喜欢Manmohan Desai的电影Amar Akbar Anthony,但P...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。