Greenplum全文检索插件——GPtext的安装

GPtext简介

GPText是作为数据库的文本分析的扩展。在数据库里面,特别是GPDB是非常擅长于处理各种结构化的数据,MPP的方式可以高效地处理结构化数据。但是对于半结构化的或者是纯文本的数据,它有搜索需求,这种处理就不是那么高效。

GPText可以将Greenplum数据库集群与Apache SolrCloud集群相结合,对大规模的文本分析进行支持。它可以支持半结构化的数据、纯文本的数据,可以提供友好的SQL接口。基于对数据库和对SQL语法的熟悉,我们提供SQL的接口,让用户通过SQL的方式进行文本的处理。

GPText对文本的机器学习的支持,也是做了很无缝的衔接。MADlib我们有专门为开通的函数,所以GPText能够很方便的做文本类型的数据。
并且GPText可以做深度的定制,因为每个应用场景、应用需求都是不一样的。文本类型也是不一样的。所以我们除了提供基本的文本处理的
功能之外,包括文本的分词等处理之外,用户可以根据他们的需求来深度定制。

安装方法

选用GPText3.1.0版本进行安装
Greenplum5.14.0版本的集群
centos7.4版本
Greenplum分布式的安装:https://blog.csdn.net/weixin_43315211/article/details/87934840

1、安装jdk

tar -zxvf jdk-8u191-linux-x64.tar.gz
vim /etc/profile
	# JAVA_HOME
	export JAVA_HOME=/usr/local/jdk1.8.0_191
	export CLASSPATH=.:$JAVA_HOME/lib
	export PATH=$PATH:$JAVA_HOME/bin
source /etc/profile

2、安装netcat、lsof

yum -y install nc
yum -y install lsof

3、安装zookeeper

cd /usr/local
tar -zxvf zookeeper-3.4.13.tar.gz
cd zookeeper-3.4.13
mkdir data
mkdir logs
touch data/myid
vim data/myid             //分别在不同的主机上写入
	1             >> mdw
	2             >> swd1
	3             >> swd2
mv conf/zoo_sample.cfg conf/zoo.cfg
vim conf/zoo.cfg
	dataDir=/usr/local/zookeeper-3.4.13/data
	dataLogDir=/usr/local/zookeeper-3.4.13/logs
	server.1=mdw:2888:3888
	server.2=sdw1:2888:3888
	server.3=sdw2:2888:3888
vim /etc/profile
	# ZOOKEEPER_HOME
	export ZOOKEEPER_HOME=/usr/local/zookeeper-3.4.13
	export PATH=$ZOOKEEPER_HOME/bin:$PATH
source /etc/profile
zkServer.sh start

3、上传gptext文件

下载gptext:https://network.pivotal.io/products/pivotal-gpdb/#/releases/253113/file_groups/1331

cd /home/gpadmin
tar -zxvf greenplum-text-3.1.0-rhel6_x86_64.tar.gz
ls
	>>gptext_install_config  
	>>greenplum-text-3.1.0-rhel6_x86_64.bin

4、链接其他主机

source $GPHOME/greenplum_path.sh
vim hostlist.txt                         //创建hostaname文件,用于链接其他主机
	mdw
	sdw1
	sdw2
gpssh -f hostlist.txt   
=> mkdir /usr/local/greenplum-text-3.1.0
=> mkdir /usr/local/greenplum-solr
=> chown gpadmin:gpadmin /usr/local/greenplum-text-3.1.0
=> chmod 775 /usr/local/greenplum-text-3.1.0
=> chown gpadmin:gpadmin /usr/local/greenplum-solr
=> chmod 775 /usr/local/greenplum-solr
=> mkdir /data/gptext
=> chown -R gpadmin:gpadmin /data/gptext
=> chmod 775 /data/gptext
=> exit
chown gpadmin:gpadmin greenplum-text-3.1.0-rhel6_x86_64.bin
chown gpadmin:gpadmin gptext_install_config
su - gpadmin

5、修改配置文件gptext_install_config

vim gptext_install_config
	declare -a GPTEXT_HOSTS=(mdw swd1 sdw2)                                 //声明集群的主机名
	declare -a DATA_DIRECTORY=(/data/gptext/primary /data/gptext/primary)   //设置数据存储路径
	JAVA_OPTS="-Xms1024M -Xmx2048M"                                         //设置SolrCloud JVM的最大值和最小值
	GPTEXT_PORT_BASE=18983                                                  //设置端口的范围
	GP_MAX_PORT_LIMIT=28983
	ZOO_CLUSTER="mdw:2181,sdw1:2181,sdw2:2181"     //zookeeper
	ZOO_GPTXTNODE="gptext"
	ZOO_PORT_BASE=2188
	ZOO_MAX_PORT_LIMIT=12188
	GPTEXT_JAVA_HOME=/usr/local/jdk1.8.0_191     //所有节点的jdk都是这个路径

6、运行安装文件

./greenplum-text-3.1.0-rhel6_x86_64.bin -c gptext_install_config

7、启动gptext

source $GPHOME/greenplum_path.sh
source /usr/local/greenplum-text-3.1.0/greenplum-text_path.sh

gptext-installsql bigdata                            //在数据库安装gptext实例,bigdata是本地数据库
gptext-start                                         //启动gptext

gpconfig -c custom_variable_classes -v 'gptext'      //配置greenplum数据库

8、gptext的基本应用

https://blog.csdn.net/weixin_43315211/article/details/87971465

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值