- 博客(3)
- 收藏
- 关注
原创 Spark MLlib — EMLDA
LDA(Latent Dirichlet allocation)是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出,也即根据给定的一篇文档,推测其主题分布。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。本文主要介绍LDA涉及的数学知识以及Spark MLli
2016-11-22 16:33:35 879
原创 YCSB基础知识及HBase性能测试
YCSB是雅虎开源的NoSQL测试工具,本篇以对HBase的测试为例介绍其运行流程。一、准备工作下载安装: YCSB提供编译后的安装文件,只要下载安装包解压就好。 踩过的坑: (1) 目前最新的版本为0.11.0。但是我在使用的过程中使用官网推荐的两种方法均不能正常使用: 直接下载安装包,解压过程中有文件损坏,文件不完整 下载源码包用mvn clean package自编译时,进行到83%之后便
2016-11-11 10:58:18 10794 2
原创 工作小记--虚拟机磁盘扩容
前言随着学习的深入,刚开始刚开始用virtualbox创建的8G磁盘容量的虚拟机已经不能满足需求了,所以对虚拟机进行了磁盘扩容,留下记录。原始磁盘容量如下: 下面采用两种方法给磁盘扩容:一、使用VBoxManage命令扩容 进入到VirtualBox的安装目录,使用”VBoxManage list hdds”命令查看当前所有虚拟磁盘信息如下: 其中红框即为虚拟机centos-1所挂载的虚
2016-11-03 19:06:41 640 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人