![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 80
前进的菜鸟
这个作者很懒,什么都没留下…
展开
-
TF-IDF及其算法
概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作转载 2014-02-10 18:19:08 · 1262 阅读 · 0 评论 -
决策树算法实现(python)
'''Created on Oct 12, 2010Decision Tree Source Code for Machine Learning in Action Ch. 3@author: cainiao'''from math import logimport operatordef createDataSet(): dataSet = [[1, 1, 'yes'],原创 2014-09-15 10:55:58 · 3641 阅读 · 1 评论 -
决策树代码实现
代码说明原创 2014-08-19 15:57:23 · 2963 阅读 · 0 评论 -
文本向量表示及TFIDF词汇权值
文本相似计算是进行文本聚类的基础,和传统结构化数值数据的聚类方法类似,文本聚类是通过计算文本之间"距离"来表示文本之间的相似度并产生聚类。文本相似度的常用计算方法有余弦定理和Jaccard系数。但是文本数据与普通的数值数据或类属数据不同,文本数据是一种半结构化数据,在进行文本挖掘之前必须要对文本数据源进行处理,如分词、向量化表示等,其目的就是使用量化的数值来表达这些半结构化的文本数据。使其适用于分转载 2014-06-11 17:48:59 · 3058 阅读 · 0 评论 -
线性回归标准方程及其概率解释
线性回归作为一种监督学习方法,在机器学习领域中属于最基本的优化问题,即根据现有的数据集,找到一个能够最好拟合这组数据的线性函数即可,根据这个线性函数对新来的数据进行预测。本文将会覆盖最简单的线性回归的解释和标准方程求解最优线性回归参数,至于梯度下降法求解,会有单独的另外一篇博客介绍。什么是回归分析显而易见,线性回归就是一种回归分析,那么什么是回归分析呢?简单的说转载 2014-07-17 20:02:05 · 11338 阅读 · 1 评论 -
K-Means聚类的Python实践
K-Means应该是最简单的聚类算法之一了吧,理论上很简单,就是随即初始化几个中心点,不断的把他们周围的对象聚集起来,然后根据这群对象的重置中心点,不断的迭代,最终找到最合适的几个中心点,就算完成了。然后,真正实践的时候才会思考的更加深入一点,比如本文的实践内容就是一个失败的案例(算法是成功的,场景是失败的)。什么是聚类简单的说,就是对于一组不知道分类标签的数据,可以通转载 2014-07-17 17:56:07 · 2786 阅读 · 0 评论 -
MapReduce如何使用多路输出
Streaming支持多路输出(SuffixMultipleTextOutputFormat)如下示例:hadoop streaming \-input /home/mr/data/test_tab/ \-output /home/mr/output/tab_test/out19 \-outputformatorg.apache.hadoop.mapred.lib.Suffix原创 2014-06-24 20:38:13 · 5947 阅读 · 0 评论 -
算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)
0、写在前面的话 我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中,并解决了实际问题后,那种快感更是我在其它地方体会不到的。 一直想写关于算法的博文,也曾写过零散的两篇,但也许是相比于工程性文章来说太小众,并没有引起大家的兴趣。最近面临毕业找工作,为了能给自己增加筹码,决定再次复习算法方面的知转载 2014-03-08 16:56:03 · 1629 阅读 · 1 评论 -
算法杂货铺——分类算法之贝叶斯网络(Bayesian networks)
2.1、摘要 在上一篇文章中我们讨论了朴素贝叶斯分类。朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立(实际上在现实应用中几乎不可能做到完全独立)。当这个条件成立时,朴素贝叶斯分类法的准确率是最高的,但不幸的是,现实中各个特征属性间往往并不条件独立,而是具有较强的相关性,这样就限制了朴素贝叶斯分类的能力。这一篇文章中,我们接着上一篇文章的例子,讨论贝叶斯分类中更转载 2014-03-08 17:29:45 · 1517 阅读 · 0 评论 -
算法杂货铺——k均值聚类(K-means)
4.1、摘要 在前面的文章中,介绍了三种常见的分类算法。分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。聚类属于无监督学习,相比于分类,聚类不依赖预定义的类和类标号的训练实例。本文首转载 2014-03-08 17:53:44 · 1735 阅读 · 1 评论 -
算法杂货铺——分类算法之决策树(Decision tree)
3.1、摘要 在前面两篇文章中,分别介绍和讨论了朴素贝叶斯分类与贝叶斯网络两种分类算法。这两种算法都以贝叶斯定理为基础,可以对分类及决策问题进行概率推断。在这一篇文章中,将讨论另一种被广泛使用的分类算法——决策树(decision tree)。相比贝叶斯算法,决策树的优势在于构造过程不需要任何领域知识或参数设置,因此在实际应用中,对于探测式的知识发现,决策树更加适用。转载 2014-03-08 17:45:02 · 3349 阅读 · 0 评论 -
Linux下的Libsvm使用历程录
首先下载Libsvm、Python和Gnuplot:l libsvm的主页http://www.csie.ntu.edu.tw/~cjlin/libsvm/上下载libsvm (我自己用2.86版本)l python的主页http://www.python.org下载 python (我自己用2.5版本)l gnuplot的主页http:转载 2014-02-24 15:06:14 · 3959 阅读 · 0 评论 -
libsvm 使用介绍
一、介绍: LIBSVM是台湾大学林智仁(Chih-Jen Lin)副教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,他不但提供了编译好的可在Windows系列系统的执行文件,还提供了源代码,方便改进、修改以及在其它操作系统上应用;该软件还有一个特点,就是对SVM所涉及的参数调节相对比较少,提供了很多的默认参数,利用这些默认参数就可以解决很多问转载 2014-02-24 15:07:36 · 1194 阅读 · 0 评论 -
一文读懂机器学习,大数据/自然语言处理/算法全有了……
在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢?我转载 2016-01-26 11:54:22 · 1115 阅读 · 0 评论