Everything should be made as simple as possible, but no simpler

使用NLTK的朴素贝叶斯分类器来训练并完成分类工作

NLTK是Python的一个自然语言处理的模块,其中实现了朴素贝叶斯分类算法。以下,就使用上一篇文中提到的数据,来应用这个模块实现朴素贝叶斯分类。NLTK的实现更加泛化,所以在应用到我们的数据上时需要做一点的转化。 首先来看一下NLTK官方文档中给出的一个简单明了的例子,在了解这个例子之...

2015-08-10 18:11:31

阅读数 11295

评论数 2

使用朴素贝叶斯算法,通过用户安装的APP列表来推测用户的性别

从本质上来说,这是一个分类问题,类似于通过邮件内容来推测垃圾邮件,通过用户的相关信息来推测用户是否会拖欠贷款,而通过用户的APP安装列表来推测用户的性别也是一个类似的问题。 对于贝叶斯算法来首,我们首先需要一个训练集数据,这个训练集是一个已经打好标签的数据。而要对一堆的数据打标签,人工来做是不...

2015-07-31 14:54:46

阅读数 9052

评论数 5

另一种扩展并加速Hadoop计算能力的计算架构—Presto

Hadoop自身的MapReduce计算框架是非常chua

2014-09-25 11:13:41

阅读数 6256

评论数 0

Elasticsearch & Logstash -- 一些经验总结

本文作为一些实践经验的总结,并不保证是最佳实践,

2014-08-01 11:27:14

阅读数 25287

评论数 6

信息的混杂度——香农熵

熵被定义为信息的期望值。一个人的性别——男、女——可以看成是一个信息;一件衣服的颜色——很多颜色——也是信息。但是这两种信息一个非常简单,只有两个可能的值,而颜色是非常多的。也可以说颜色的信息量要比性别的信息量要大、要更加混杂。而熵就是衡量这种混杂度的数学指标。 那么具体一点,一个符号A...

2013-06-21 11:47:33

阅读数 2048

评论数 0

HUE beeswax中文显示问题的解决方案

HUE是Cloudera推出的Hadoop生态系统的Web访问接口,基于Python Django开发。 在使用过程中发现,如果提交的SQL语句中有中文的注释,提交之后,整个语句将会保存在后端的MySQL历史表中,但是再次去查看历史记录的时候,其中的中文却显示成一串问号。显然,这种问题是...

2013-05-23 19:03:05

阅读数 5525

评论数 0

一种计算留存的思路

在一些统计系统中,为了观察用户的粘度,我们会计算一系列的叫做留存的指标——次日注册留存、2日注册留存...N日注册留存,比如昨天注册了1000名用户中,在今天有300名用户又登录了,那么对应于昨天的注册留存就是30%;如果再去细究,还可以去计算活跃用户的留存情况,比如昨天登录的1000名用户中,在...

2013-04-13 18:06:27

阅读数 3295

评论数 0

跨国际链路的数据服务系统架构设计的一种实现思路

现在数据在互联网产品中发挥的作用越来越大,很多公司都开始收集数据、整理数据,之后再数据建模、分析数据;最终我们得到的是知识,是某种规律的发现。发现知识和规律之后,我们需要将这些知识和规律运用到产品的改进或者运营中去。有些知识可以渗透在整个产品的设计中,比如说,我们通过数据分析发现,对于某种类型的网...

2012-07-30 16:15:12

阅读数 1868

评论数 0

R+Hadoop Rhipe部署

R版本R-2.14.2 Rhipe版本0.66 protobuf版本2.4.1 首先安装R语言软件,需要注意configure时,先设置几个环境变量,编译长shared lib  cd R-2.14.2 export CFLAGS=-fPIC export CXXFLAGS...

2012-03-12 14:41:49

阅读数 2696

评论数 0

Facebook scribe部署实践

基于scribe来收集众多服务器的日志已经在许多公司应用,但是部署scribe确是一个令人纠结的过程,本人也做过一些相关工作,现在将scribe部署方式同大家分享一下: 环境:centos 5.4 或者 suse 准备阶段: 1. apache ant,这个主要是用到java的库的时...

2012-01-05 12:55:35

阅读数 1632

评论数 1

Hadoop/Hive简介

Hadoop是一个存储计算框架,主要由两部分组成: 存储(Hadoop分布式文件系统-HDFS) 计算(MapReduce计算框架) Hadoop分布式文件系统 这是一种文件系统实现,类似于NTFS,ext3,ext4等等,不过它是建立在更高的层...

2011-11-22 15:01:13

阅读数 3864

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭