机器学习及算法
文章平均质量分 88
主要是记录数据结构的知识和算法
我就是一个小渣渣
一个初入门槛的小渣渣
展开
-
K-means聚类算法指南
假设你想根据内容和主题对成千上万的数据进行分类,或者你希望出于某种原因,将不同的图像或者数据组合在一起,或者更重要的是,假设你有相同的数据已经被分类但是你想挑战这个标签,你想知道数据分类是否有意义,或者是否可以改进。 好吧,我的建议是你对数据进行聚类。信息经常会因为冗余等各种原因变得模糊不清,而将数据分组到具有相似特征的群集(群集)中是一种有效的方式。 聚类是一种广泛用于查找具有相似特征的观察组(称为聚类)的技术。此过程不是由特定目的驱动的,这意味着您不必专门告诉您的算法如何对这些观察进行分组,因为它是独立转载 2021-04-26 18:39:16 · 725 阅读 · 0 评论 -
B(B-)树和B+树
B(B-)树和B+树 B树 B树(balance tree)和B+树应用在数据库索引,可以认为是m叉的多路平衡查找树,但是从理论上讲,二叉树查找速度和比较次数都是最小的,为什么不用二叉树呢? 因为我们要考虑磁盘IO的影响,它相对于内存来说是很慢的。数据库索引是存储在磁盘上的,当数据量大时,就不能把整个索引全部加载到内存了,只能逐一加载每一个磁盘页(对应索引树的节点)。所以我们要减少IO次数,对于树来说,IO次数就是树的高度,而“矮胖”就是B树的特征之一,它的每个节点最多包含m个孩子,m称为b树的阶,m的大小原创 2020-11-26 16:30:59 · 167 阅读 · 0 评论