GPtext简介
GPText是作为数据库的文本分析的扩展。在数据库里面,特别是GPDB是非常擅长于处理各种结构化的数据,MPP的方式可以高效地处理结构化数据。但是对于半结构化的或者是纯文本的数据,它有搜索需求,这种处理就不是那么高效。
GPText可以将Greenplum数据库集群与Apache SolrCloud集群相结合,对大规模的文本分析进行支持。它可以支持半结构化的数据、纯文本的数据,可以提供友好的SQL接口。基于对数据库和对SQL语法的熟悉,我们提供SQL的接口,让用户通过SQL的方式进行文本的处理。
GPText对文本的机器学习的支持,也是做了很无缝的衔接。MADlib我们有专门为开通的函数,所以GPText能够很方便的做文本类型的数据。
并且GPText可以做深度的定制,因为每个应用场景、应用需求都是不一样的。文本类型也是不一样的。所以我们除了提供基本的文本处理的
功能之外,包括文本的分词等处理之外,用户可以根据他们的需求来深度定制。
安装方法
选用GPText3.1.0版本进行安装
Greenplum5.14.0版本的集群
centos7.4版本
Greenplum分布式的安装:https://blog.csdn.net/weixin_43315211/article/details/87934840
1、安装jdk
tar -zxvf jdk-8u191-linux-x64.tar.gz
vim /etc/profile
# JAVA_HOME
export JAVA_HOME=/usr/local/jdk1.8.0_191
export CLASSPATH=.:$JAVA_HOME/lib
export PATH=$PATH:$JAVA_HOME/bin
source /etc/profile
2、安装netcat、lsof
yum -y install nc
yum -y install lsof
3、安装zookeeper
cd /usr/local
tar -zxvf zookeeper-3.4.13.tar.gz
cd zookeeper-3.4.13
mkdir data
mkdir logs
touch data/myid
vim data/myid //分别在不同的主机上写入
1 >> mdw
2 >> swd1
3 >> swd2
mv conf/zoo_sample.cfg conf/zoo.cfg
vim conf/zoo.cfg
dataDir=/usr/local/zookeeper-3.4.13/data
dataLogDir=/usr/local/zookeeper-3.4.13/logs
server.1=mdw:2888:3888
server.2=sdw1:2888:3888
server.3=sdw2:2888:3888
vim /etc/profile
# ZOOKEEPER_HOME
export ZOOKEEPER_HOME=/usr/local/zookeeper-3.4.13
export PATH=$ZOOKEEPER_HOME/bin:$PATH
source /etc/profile
zkServer.sh start
3、上传gptext文件
下载gptext:https://network.pivotal.io/products/pivotal-gpdb/#/releases/253113/file_groups/1331
cd /home/gpadmin
tar -zxvf greenplum-text-3.1.0-rhel6_x86_64.tar.gz
ls
>>gptext_install_config
>>greenplum-text-3.1.0-rhel6_x86_64.bin
4、链接其他主机
source $GPHOME/greenplum_path.sh
vim hostlist.txt //创建hostaname文件,用于链接其他主机
mdw
sdw1
sdw2
gpssh -f hostlist.txt
=> mkdir /usr/local/greenplum-text-3.1.0
=> mkdir /usr/local/greenplum-solr
=> chown gpadmin:gpadmin /usr/local/greenplum-text-3.1.0
=> chmod 775 /usr/local/greenplum-text-3.1.0
=> chown gpadmin:gpadmin /usr/local/greenplum-solr
=> chmod 775 /usr/local/greenplum-solr
=> mkdir /data/gptext
=> chown -R gpadmin:gpadmin /data/gptext
=> chmod 775 /data/gptext
=> exit
chown gpadmin:gpadmin greenplum-text-3.1.0-rhel6_x86_64.bin
chown gpadmin:gpadmin gptext_install_config
su - gpadmin
5、修改配置文件gptext_install_config
vim gptext_install_config
declare -a GPTEXT_HOSTS=(mdw swd1 sdw2) //声明集群的主机名
declare -a DATA_DIRECTORY=(/data/gptext/primary /data/gptext/primary) //设置数据存储路径
JAVA_OPTS="-Xms1024M -Xmx2048M" //设置SolrCloud JVM的最大值和最小值
GPTEXT_PORT_BASE=18983 //设置端口的范围
GP_MAX_PORT_LIMIT=28983
ZOO_CLUSTER="mdw:2181,sdw1:2181,sdw2:2181" //zookeeper
ZOO_GPTXTNODE="gptext"
ZOO_PORT_BASE=2188
ZOO_MAX_PORT_LIMIT=12188
GPTEXT_JAVA_HOME=/usr/local/jdk1.8.0_191 //所有节点的jdk都是这个路径
6、运行安装文件
./greenplum-text-3.1.0-rhel6_x86_64.bin -c gptext_install_config
7、启动gptext
source $GPHOME/greenplum_path.sh
source /usr/local/greenplum-text-3.1.0/greenplum-text_path.sh
gptext-installsql bigdata //在数据库安装gptext实例,bigdata是本地数据库
gptext-start //启动gptext
gpconfig -c custom_variable_classes -v 'gptext' //配置greenplum数据库
8、gptext的基本应用
https://blog.csdn.net/weixin_43315211/article/details/87971465