Hadoop
sparkexpert
大数据挖掘技术(人工智能)的爱好者
展开
-
RHadoop的安装与试验
1、安装R之前的环境就不说了。可以参照之前的博客介绍。2、正常的参考资料中都要安装这些包,实际上操作的时候可能还需要更多。install.packages("rJava")install.packages("reshape2")install.packages("Rcpp")install.packages("iterators")install.packages(原创 2015-10-14 16:45:15 · 582 阅读 · 0 评论 -
RHadoop 例子WordCount测试
安装完RHadoop,当然要进行一下例子测试,看了网上相关的关于wordcount的例子,还是有不少,有些还比较模糊,于是就把自己下载的代码与编译结果记录一下:欢迎交流学习:sparkexpert@sina.comlibrary(rmr2)library(rhdfs)hdfs.init()rmr.options(backend = "local")原创 2015-10-18 16:58:15 · 1032 阅读 · 0 评论 -
Sqoop源码编译与分析(V1.4.6)
Apache Sqoop 项目旨在协助 RDBMS 与 Hadoop 之间进行高效的大数据交流。用户可以在 Sqoop的帮助下,轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 ( 如 HBase 和 Hive) 中;同时也可以把数据从Hadoop 系统里抽取并导出到关系型数据库里。除了这些主要的功能外,Sqoop 也提供了一些诸如查看数据库表等实用的小工具。Sqoop 支原创 2015-10-14 10:07:32 · 2424 阅读 · 0 评论 -
Hive V1.2.1源码的解译
在利用spark sql on hive的过程中,访问Mysql总是报错,其报错的日志总是显示:15/09/21 11:12:20 INFO MetaStoreDirectSql: MySQL check failed,assuming we are not on mysql: Lexical error at line 1, column 5. Encountered: "@" (64)原创 2015-10-14 10:07:39 · 1144 阅读 · 0 评论 -
大数据并行处理框架介绍
(仅上传了一部分的课件PPT)。原创 2015-10-30 10:55:29 · 2196 阅读 · 0 评论 -
Apache Mahout的KMeans算法测试
Mahout是Hadoop中实现数据挖掘的包,虽然现在一般用spark mlib,但是为了做比较,想着将mahout的算法进行验证测试一下。。Mahout的安装还是非常简单的,只需要解压一下再进行如下配置就可以。# Mahoutexport MAHOUT_HOME=/home/ndscbigdata/soft/mahout-0.11.0export PATH=$MAHOUT原创 2015-10-31 20:52:18 · 750 阅读 · 0 评论 -
Apache mahout中HMM(隐马尔可夫)算法的测试
隐马尔可夫模型(Hidden Markov Model,HMM)是概率学上的一种统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。HMM正常主要用来解决三类问题,这三类问题对应都有相关的算法。*1 评估问题: 前向算法*2 解码问题: Viterbi算法*3 学习问题: Baum-Welch算法(向前向后算原创 2015-11-03 10:17:12 · 2445 阅读 · 0 评论