数据挖掘
文章平均质量分 68
csdwb
这个作者很懒,什么都没留下…
展开
-
贝叶斯算法之文本分类
第1章 贝叶斯原理1.1 贝叶斯公式设A、B是两个事件,且P(A)>0,称为在事件A发生的条件下事件B发生的条件概率。乘法公式 P(XYZ)=P(Z|XY)P(Y|X)P(X)全概率公式 P(X)=P(X|Y1)+ P(X|Y2)+…+ P(X|Yn)贝叶斯公式以上公式,请读者参考《概率论与数理统计(第五版)》的1.4节“条件概率”(这里将原书中的A换成了X,B原创 2011-12-17 13:38:46 · 8450 阅读 · 3 评论 -
文本分类简介
一.概述 文本分类在文本处理中是很重要的一个模块,它的应用也非常广泛,比如:垃圾过滤,新闻分类,词性标注等等。它和其他的分类没有本质的区别,核心方法为首先提取分类数据的特征,然后选择最优的匹配,从而分类。但是文本也有自己的特点,根据文本的特点,文本分类的流程为:1.预处理;2.文本表示及特征选择;3.构造分类器;4.分类。下面分别介绍每个模块。1. 预处理大家知道,中文书写时,不像原创 2011-12-18 18:55:53 · 5019 阅读 · 0 评论 -
KNN算法
k-Nearest Neighbor algorithm是K最邻近结点算法(k-Nearest Neighbor algorithm)的缩写形式 该算法的基本思路是:在给定新文本后,考虑在训练文本集中与该新文本距离最近(最相似)的 K 篇文本,根据这 K 篇文本所属的类别判定新文本所属的类别K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成原创 2011-12-15 19:17:26 · 847 阅读 · 0 评论 -
TF-IDF原理简介
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相原创 2011-12-19 10:54:45 · 3965 阅读 · 0 评论 -
互联网海量数据蕴藏巨大“金矿”
根据IDC的调查报告显示,2010年底全球数据量已达到1.2ZB。到2020年全球电子设备存储的数据将暴增30倍,达到35ZB(相当于10亿块1TB的硬盘的容量)。但对于有准备的企业来说这无疑是一座信息金矿,随着数据挖掘技术的进步,有价值的信息将变得容易获取。随着大数据时代的到来,数据存储、数据挖掘以及处理和分析大数据的相关技术比以往任何时候都更受关注。大数据正成为企业发展的基石,并渐渐改变很翻译 2011-12-20 10:32:24 · 863 阅读 · 0 评论 -
数据挖掘十大经典算法
/ / 转载自July的博客参考文献:国际权威的学术组织ICDM,于06年12月年评选出的数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.==============一、C4.5C4.5,是机器学习算法中的一个分类决策树算法,它转载 2011-12-08 19:16:43 · 738 阅读 · 1 评论 -
朴素贝叶斯分类流程图介绍
1.1、摘要 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。1.2、分类问题综述 对于分类问题,其实谁都不会陌生,说我们每个人每天都在执行分类操作一点原创 2011-12-19 15:07:03 · 13617 阅读 · 0 评论 -
搜索引擎原理简介
搜索引擎可以分为4个系统:下载系统、分析系统、索引系统和查询系统。前三个是“离线系统”,最后一个是“在线系统”。 下载系统负责从互联网上下载各种类型的网页,并且保持对互联网变化同步。首先是一个叫网络爬虫的程序在网页上抓取网页,抓取的算法主要有宽度优先和深度优先两种方式。然而,网页链接有可能出现死循环,这样就要避免重复抓取,重用的方法有用哈希表来记录下爬虫抓取的历史记录,和设定一个最大深原创 2011-12-18 18:58:25 · 519 阅读 · 0 评论 -
海量数据处理经典面试题
第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几原创 2011-12-18 17:33:54 · 780 阅读 · 0 评论 -
向量空间模型(VSM)
向量空间模型(VSM)向量空间模型将文档映射为一个特征向量V(d)=(t1,ω1(d);…;tn, ωn(d)),其中ti(i=1,2, …,n)为一列互不雷同的词条项,ωi(d)为ti在d中的权值, 一般被定义为ti在d中出现频率tfi(d)的函数,即。在信息检索中常用的词条权值计算方法为 TF-IDF 函数,其中N为所有文档的数目,ni为含有词条ti的文档数目。TF-IDF原创 2011-12-28 21:06:19 · 1223 阅读 · 0 评论