自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

探索技术世界

寻找内心的安宁

  • 博客(10)
  • 资源 (1)
  • 收藏
  • 关注

原创 Ignite+CDH5.8安装配置

最近在研究基于内存处理技术,其中就有比较出名的Apache Ignite的项目。应用场景是,通过Spark/Java等工具处理Parquet文件,但是直接通过Java API处理Parquet文件的性能较差,主要原因在于不能实现并行化处理。本文结构:Ignite特性;四节点安装Ignite、配置CDH-Spark环境变量;测试Ignite。Ignite特性Ignite的应用场景比较多,主要用

2016-11-29 21:25:38 2186 1

原创 SAS中实用函数

SAS博大精深,版主初涉此领域,经常遇到一些问题,需要Baidu搜索,为了防止遗忘,记录下来。关于日期时间SAS中的时间日期格式非常多,重要的函数有如下几种: Day函数:得到日期的天,例如:day(‘2016-09-01’d)=1; Month函数:得到日期的月份,例如:month(‘2016-09-01’d)=9; Year函数:得到日期的年份,例如:year(‘2016-09-

2016-11-29 10:42:08 7597

原创 dl4j+fnlp关联度TopN

最近在学习deeplearning4j,简称为dl4j。其中有许多示例,可以编译源码以后,运行runexample.sh来查看相关的结果。其中有分词的例子,所以想要学习一下分词,特别是中文分词的实例。 关于中文分词,比较好的一个例子就是DeepLearning4J入门——让计算机阅读《天龙八部》,版主也想要研究一下该例子,并通过学习加深对分词的理解。环境版主使用的环境,基本上与原文作者使用的类似:

2016-11-28 22:41:17 2232

原创 FNLP编译安装

最近在研究dl4j的学习,其中有使用FNLP作为分词的例子。版主尝试编译源码,经过不断的查找验证,得到可行的方式。编译FNLP的源码已经在github上,地址为:https://github.com/FudanNLP/fnlp,感兴趣的朋友可以下载编译学习。同时针对下载困难的Jar包,FNLP的作者利用国内百度云盘作为下载地址,可以下载相关Jar包和Model,地址为:http://pan.baid

2016-11-27 13:16:33 1490

转载 Hive2.0.0安装配置

环境依赖Hive必须运行在Hadoop之上,则需要先安装Hadoop环境。关于Hadoop的安装可以参考我前文的博客,也可以参考原文作者的链接。安装Hive1.下载Hive http://apache.mirrors.ionfish.org/hive/ 我安装的是apache-hive-1.2.1-bin.tar.gz[hadoop@hftclclw0001 ~]$ pwd/home/hado

2016-11-27 12:48:51 1144

原创 Hbase集群安装配置-四节点-Centos6.9

最近在研究Hadoop相关组件的安装,本篇主要研究Hbase的安装。Hbase作为Hadoop家族中重要的数据库解决方案,对以后的Hive等数据库都有非常大的帮助。准备工作本节主要阐述Hbase集群的环境。系统环境:Linux6.9;JAVA:JDK1.8.0_111;Hadoop:2.6.0;Zookeeper:3.4.9(3节点:slave1/slave2/slave3)。下载文件一般

2016-11-26 21:53:40 938

原创 Linux安装MySQL

在Windows上安装MySQL比较简单,配置、启动服务,第一次进入不需要输入密码。但是在Centos6上安装MySQL,发现第一次安装会出现密码问题,因此有必要记录下自己的安装、配置过程,以供遗忘。安装Reposity RPM登陆MySQL官网,进入社区版下载页面,选择Redhat。MySQL官网;根据官网安装步骤,安装RPM。安装RPM的过程一般不会出现问题。当然,也可以下载RPM直接安装

2016-11-26 11:51:00 708

原创 Spark集群配置

相比Hadoop的配置,Spark配置起来相对简单。本文结合自身的配置经验,写下配置Spark的过程。准备工作在正式配置之前,需要确定环境是否适合安装Spark集群。确保已经安装JDK/JRE;安装Hadoop(非必要);确保已经安装SCALA;MASTER\SLAVE的IP地址已经配置在/etc/hosts中。Spark配置配置文件.spark-env.sh:export JAVA_HO

2016-11-25 14:36:42 765

原创 Hadoop集群配置

Hadoop集群配置自己动手搭建一个Hadoop集群,对于Hadoop的学习、理解非常有帮助,从中能够学习到Hadoop常用的端口、配置文件、配置信息等内容。准备工作四台机器:master、slave1、slave2、slave3;在master上开通外网访问权限,slave1\slave2\slave3无需外网访问权限;下载JDK1.8.0_111;在master上安装vim\wget\t

2016-11-25 13:48:17 795

原创 Java API读取CDH-Hadoop Parquet文件

Java API读取CDH-Hadoop Parquet文件由于工作需要,基于目前公司集群存在较多的服务器且存在大量的内存,因此考虑直接将数据Load进内存进行数据处理,测试是否能够加快处理速度;鉴于以上目的,版主尝试使用Parquet的Java API读入Parquet文件。 目前关于使用Java API访问HDFS的文章较多,但是没有相关的配置比较容易出错;同时Java API读写Parque

2016-11-25 12:44:36 7154

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除