- 博客(5)
- 收藏
- 关注
原创 朴素贝叶斯分类
之前,我探讨过“决策树归纳”的分类方法,本文我将介绍另一中比决策树更加简单的,用概率方法分类的技术——“朴素贝叶斯分类”。贝叶斯定理贝叶斯定理是概率论中非常简单基础的定理,其解决的核心点在于根据已有信息,对未知事物发生结果的概率计算。就拿分
2017-03-28 20:02:55 1212
原创 决策树归纳
分类与监督学习现实中,我们经常会遇到这样的问题:银行收到用户的信用卡申请表。当然,这是一张带有用户丰富信息的申请表,比如年龄,学历,收入,信用记录等等。那么银行的工作人员如何根据这些信息判别这个用户是否是诚信的,是否应该通过他的信用卡申请呢?人工的判断显然耗时耗力,且不一定准确,比较靠谱的办法是通过已有的,大量用户的使用记录,分析得到一个模型(或一个方程,一种工具),利用这个模型,可以判别出大
2017-03-26 10:16:04 8913 1
原创 B树与B+树
B树是为实现高效的磁盘存取而设计的多叉平衡搜索树。这个概念在文件系统,数据库系统中非常重要。当然,有关于B树的产生,发展,结构等等方面的介绍已经非常详细,所以本文只是介绍有关于B树和B+树最核心的知识点,也算是我本人的学习笔记。至于详细的资料,因为毕竟有着太多,所以不再赘述。可以向大家推荐一篇博客:从B树、B+树、B*树谈到R 树,这篇文章中,作者对于B树系列数据结构的讲解非常详细,我的这篇博客,
2017-03-20 15:59:33 67835 22
原创 Apriori算法解析
背景介绍维克多迈尔在《大数据时代》中,提出了大数据时代跟传统的信息时代相比,最本质的三个思维变革:1. 要全体数据,而不仅是样本;2. 要混杂,而不要效率偏低的精确;3. 要相关关系,而不是因果关系。这第三条说的就是数据挖掘中,最基础,最简单,也是最为重要的应用——数据相关关系的挖掘。相关关系,其实是数据中蕴含的最直接的知识,而对这种相关关系的挖掘,如今也早已应用到推荐系统,个性化检索,机器学
2017-03-09 10:46:22 13997 5
原创 聚类分析: k-means算法
k-means算法聚类分析是数据分析中,非常重要的一类课题。他的作用是将大量的无标签数据通过计算,自动为其标注标签。众所周知,这一点是区别于数据分类技术的。而现实的场景中,无标签的数据显然多于有标签数据,因此,我在这里也是先说聚类,后面的博文,再说分类。聚类的目的,是要将数据归为不同的类,基本原则是要相近的数据尽量归为一类,而不同类之间的数据则要尽量有比较大的差别。说到聚类,当然最先想
2017-03-02 15:52:33 28008
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人