自然语言处理
tbinjiayou
福建师范大学数计院计算机专业
展开
-
Google Custom Search API的使用
本文将介绍如何使用GoogleCustom Search API,调用Google的搜索结果。最后提供了一个用PHP编写的简单示例。一、获取Google的授权1.注册Google帐号,网址链接:https://accounts.google.com/NewAccount。2.开启Custom Search功能:打开网址https://code.google.com/apis/c原创 2013-03-01 19:21:52 · 5601 阅读 · 2 评论 -
信息熵
信息熵是对不确定性或者所包含信息的一种度量。例如:抛掷一枚均匀的硬币,正面和反面出现的概率相等都是1/2,那么通过熵的计算公式,抛掷一次的熵为1bit,抛掷两次的熵为2bit。也就是说,为了标记抛掷的结果,我们需要一个比特位,如用0标记正面,1标记反面,此时不确定性也就最大。如果是一枚不均匀的硬币,那么通过熵的计算公式,其值必然小于1,也就是说我们预测结果的不确定性降低了,这种硬币抛掷后所蕴含的信原创 2013-03-12 23:37:50 · 1600 阅读 · 0 评论 -
文本分类性能评价指标
文本分类的性能评价指标主要是召回率(recall)、准确率(precision)、F1-measure,以及用于评价全局性能的宏平均(macro-average)和微平均(micro-average)。意义与计算公式假定:类别ci的分类结果中,正确分为该类的样本数目是a,错误划归为该类的样本数目是b,将该类错误划归为它类的样本数目是c,总共包含C类。召回率:recall= a / (a原创 2013-03-21 10:43:20 · 8890 阅读 · 0 评论