- 博客(5)
- 收藏
- 关注
转载 贝叶斯公式的一些理解
条件概率相关定理:定理1设A,B 是两个事件,且A不是不可能事件,则称为在事件A发生的条件下,事件B发生的条件概率。一般地,,且它满足以下三条件:(1)非负性;(2)规范性;(3)可列可加性。定理2设E 为随机试验,Ω 为样本空间,A,B 为任意两个事件,设P(A)>0,称为在“事件A 发生”的条件下事件B
2015-07-13 17:28:30 1919
转载 TF-IDF算法
TF-IDF及其算法概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的
2015-07-08 00:58:05 484
转载 数据取对数运算的意义
平时在一些数据处理中,经常会把原始数据取对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:1. 缩小数据的绝对数值,方便计算。例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数
2015-07-08 00:43:05 4795 1
原创 基于朴素贝叶斯到中文垃圾邮件分类器
简介: 朴素 贝叶斯垃圾邮件分类器是在对邮件关键字进行统计分析到基础上利用贝叶斯公式进行分类到方法。相比其他模型,朴素贝叶斯模型到搭建比较简单,并且具有良好到分类效果。 朴素真贝叶斯分类器通过对邮件关键字进行统计,然后使用贝叶斯推理来计算一封电子邮件是或不是垃圾邮件的概率。贝叶斯定理: 表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。
2015-07-07 01:11:12 8851 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人