翻译
文章平均质量分 81
sanfendi
这个作者很懒,什么都没留下…
展开
-
机器学习笔记——贝叶斯学习
概率 理解概率最简单的方式就是把它们想像成韦恩图中的元素。首先你有一个包括所有可能输出(例如一个实验的)的全集,现在你对其中的一些子集感兴趣,即一些事件。假设我们在研究癌症,所以我们观察人们看他们是否患有癌症。在研究中,假设我们把所有参与者当成我们的全集,然后对任何一个个体来说都有两种可能的结论,患有或没有癌症。我们可以把我们的全集分成两个事件:事件"患有癌症的人"(表示为A),和"不患翻译 2014-04-29 19:50:56 · 3306 阅读 · 0 评论 -
Flume 中文入门手册
原文:https://cwiki.apache.org/confluence/display/FLUME/Getting+Started什么是 Flume NG?Flume NG 旨在比起 Flume OG 变得明显更简单,更小,更容易部署。在这种情况下,我们不提交Flume NG 到 Flume OG 的后向兼容。当前。我们期待来自感兴趣测试Flume NG 正确性、易用性和与别的系翻译 2014-04-25 09:56:45 · 7000 阅读 · 1 评论 -
MongoDB Java 入门手册
安装:下载安装包,双击安装启动:默认请在在c盘根目录下先创建\data\db文件夹(否则在启动服务时添加 --dbpath d:\data,即指定数据库数据的地址)mkdir data\db //用于存放数据文件cd C:\Program Files\MongoDB 2.6 Standard\binmongod //启动数据库服务,运行下面的程序时保证此翻译 2014-04-24 14:50:57 · 2445 阅读 · 0 评论 -
文本分类之情感分析 – 朴素贝叶斯分类器
情感分析正成为研究和社交媒体分析的热点领域,尤其是在用户评论和微博上。它是文本挖掘的一种特殊情况,一般关注在识别正反观点上,虽然它常不很准确,它仍然是有用的。为简单起见(因为训练数据容易获取),我将重点放在2个可能的情感分类:积极的和消极的。NLTK 朴素贝叶斯分类NLTK附带了所有你需要的情感分析的入手的东西:一份带有分为POS和NEG类别的电影评论语料,以及一些可训练分类器。我翻译 2014-07-18 21:33:25 · 19501 阅读 · 1 评论 -
文本分类之情感分析– 准确率和召回率
Accuracy不是评估分类器的有效性的唯一度量。另外两个有用的指标是precision和recall。这两个度量可提供二元分类器的性能特征的更多视角。分类器的 PrecisionPrecision度量一个分类器的正确性。较高的精确度意味着更少的误报,而较低精度意味着更多的误报。这是经常与recall相反,作为一种简单的方法来提高精度,以减少召回。分类器的 Re翻译 2014-07-19 08:08:34 · 25534 阅读 · 1 评论 -
文本分类之情感分析– 去除低信息量的特征
当你的分类模型有数百个或数千个特征,由于是文本分类的情况下,许多(如果不是大多数)的特点是低信息量的,这是一个不错的选择。这些特征对所有类都是通用的,因此在分类过程中作出很小贡献。个别是无害的,但汇总的话,低信息量的特征会降低性能。通过消除噪声数据给你的模型清晰度,这样就去除了低信息量特征。它可以把你从过拟合和维数灾难中救出来。当你只使用更高的信息特征,可以提高性能,同时也降低了模型的大小翻译 2014-07-19 09:48:15 · 6506 阅读 · 2 评论 -
文本分类之情感分析– 停用词和惯用语
改善特征提取往往可以对分类的accuracy(和precision和召回率)有显著的正面影响。在本文中,我将评估word_feats的两项修改特征提取的方法:过滤停用词 包含二元语法搭配为了有效地做到这一点,我们将修改前面的代码,这样我们就可以使用任意的特征提取函数,它接收一个文件中的词,并返回特征字典。和以前一样,我们将使用这些特征来训练朴素贝叶斯分类器。翻译 2014-07-19 08:51:00 · 12215 阅读 · 0 评论 -
关于产品推荐的10个问题
许多零售商使用自动的产品推荐技术来增加他们的销售额和转化率。这些推荐的物品通常是商业站点上动态生成的,通常基于特定客户或一组客户的购买习惯。Strands Recommender 是一个领先的动态生成产品推荐的提供者,我们最近采访了其市场经理 Trevor Legwinski, 关于产品推荐的概念和它对电子零售商的效果。10 个关于产品推荐的问题Practi翻译 2014-07-05 19:58:31 · 2513 阅读 · 0 评论