2016年11月_大数据运维

原创 Ignite+CDH5.8安装配置

最近在研究基于内存处理技术，其中就有比较出名的Apache Ignite的项目。应用场景是，通过Spark/Java等工具处理Parquet文件，但是直接通过Java API处理Parquet文件的性能较差，主要原因在于不能实现并行化处理。本文结构：Ignite特性；四节点安装Ignite、配置CDH-Spark环境变量；测试Ignite。Ignite特性Ignite的应用场景比较多，主要用

2016-11-29 21:25:38 2186 1

原创 SAS中实用函数

SAS博大精深，版主初涉此领域，经常遇到一些问题，需要Baidu搜索，为了防止遗忘，记录下来。关于日期时间SAS中的时间日期格式非常多，重要的函数有如下几种： Day函数：得到日期的天，例如：day(‘2016-09-01’d)=1； Month函数：得到日期的月份，例如：month(‘2016-09-01’d)=9； Year函数：得到日期的年份，例如：year(‘2016-09-

2016-11-29 10:42:08 7597

原创 dl4j+fnlp关联度TopN

最近在学习deeplearning4j，简称为dl4j。其中有许多示例，可以编译源码以后，运行runexample.sh来查看相关的结果。其中有分词的例子，所以想要学习一下分词，特别是中文分词的实例。关于中文分词，比较好的一个例子就是DeepLearning4J入门——让计算机阅读《天龙八部》，版主也想要研究一下该例子，并通过学习加深对分词的理解。环境版主使用的环境，基本上与原文作者使用的类似：

2016-11-28 22:41:17 2232

最近在研究dl4j的学习，其中有使用FNLP作为分词的例子。版主尝试编译源码，经过不断的查找验证，得到可行的方式。编译FNLP的源码已经在github上，地址为：https://github.com/FudanNLP/fnlp，感兴趣的朋友可以下载编译学习。同时针对下载困难的Jar包，FNLP的作者利用国内百度云盘作为下载地址，可以下载相关Jar包和Model，地址为：http://pan.baid

2016-11-27 13:16:33 1490

转载 Hive2.0.0安装配置

环境依赖Hive必须运行在Hadoop之上，则需要先安装Hadoop环境。关于Hadoop的安装可以参考我前文的博客，也可以参考原文作者的链接。安装Hive1.下载Hive http://apache.mirrors.ionfish.org/hive/ 我安装的是apache-hive-1.2.1-bin.tar.gz[hadoop@hftclclw0001 ~]$ pwd/home/hado

2016-11-27 12:48:51 1144

原创 Hbase集群安装配置-四节点-Centos6.9

最近在研究Hadoop相关组件的安装，本篇主要研究Hbase的安装。Hbase作为Hadoop家族中重要的数据库解决方案，对以后的Hive等数据库都有非常大的帮助。准备工作本节主要阐述Hbase集群的环境。系统环境：Linux6.9；JAVA：JDK1.8.0_111；Hadoop：2.6.0；Zookeeper：3.4.9（3节点：slave1/slave2/slave3）。下载文件一般

2016-11-26 21:53:40 938

原创 Linux安装MySQL

在Windows上安装MySQL比较简单，配置、启动服务，第一次进入不需要输入密码。但是在Centos6上安装MySQL，发现第一次安装会出现密码问题，因此有必要记录下自己的安装、配置过程，以供遗忘。安装Reposity RPM登陆MySQL官网，进入社区版下载页面，选择Redhat。MySQL官网；根据官网安装步骤，安装RPM。安装RPM的过程一般不会出现问题。当然，也可以下载RPM直接安装

2016-11-26 11:51:00 708

原创 Spark集群配置

相比Hadoop的配置，Spark配置起来相对简单。本文结合自身的配置经验，写下配置Spark的过程。准备工作在正式配置之前，需要确定环境是否适合安装Spark集群。确保已经安装JDK/JRE；安装Hadoop(非必要)；确保已经安装SCALA；MASTER\SLAVE的IP地址已经配置在/etc/hosts中。Spark配置配置文件.spark-env.sh：export JAVA_HO

2016-11-25 14:36:42 765

原创 Hadoop集群配置

Hadoop集群配置自己动手搭建一个Hadoop集群，对于Hadoop的学习、理解非常有帮助，从中能够学习到Hadoop常用的端口、配置文件、配置信息等内容。准备工作四台机器：master、slave1、slave2、slave3；在master上开通外网访问权限，slave1\slave2\slave3无需外网访问权限；下载JDK1.8.0_111；在master上安装vim\wget\t

2016-11-25 13:48:17 795

原创 Java API读取CDH-Hadoop Parquet文件

Java API读取CDH-Hadoop Parquet文件由于工作需要，基于目前公司集群存在较多的服务器且存在大量的内存，因此考虑直接将数据Load进内存进行数据处理，测试是否能够加快处理速度；鉴于以上目的，版主尝试使用Parquet的Java API读入Parquet文件。目前关于使用Java API访问HDFS的文章较多，但是没有相关的配置比较容易出错；同时Java API读写Parque

2016-11-25 12:44:36 7154

探索技术世界