Mapr搜索指南(一)——Mapr全文检索

在MAPR全文检索

您可以将LucidWorks搜索功能与运行MAPR分布的Hadoop无需使用专门的查询语法上的群集数据进行全文搜索的集群。

存储在典型的MAPR集群非常大的数据集可以使他们具有挑战性的查询。MapReduce的工作需要编程知识来创建。Apache的钻头需要使用类似SQL的搜索语法。集成LucidWorks搜索功能与您的MAPR集群使您能够在集群中的任何索引的数据上任意的字符串进行快速搜索。

搜索概念

LucidWorks必须索引搜索之前在群集中的数据。搜索索引映射文件中找到这些文件的位置在集群中的话。建立一个搜索索引,您在群集中的LucidWorks在指定位置抓取。爬网程序是一种程序,连接到您的数据和检索您的文件进行索引。您可以为您的履带,影响哪些文件履带检索指定的规则。由爬虫检索的文档由LucidWorks被解析并添加到索引中。

您可以定义集合为你的文件。集合由一组文件被查询和规则共享一套索引的。

在一个MAPR簇,搜索功能使用以下组件:

  • 动物园管理员服务的多个节点组成LucidWorks服务之间保持同步。
  • 数据被存储在MAPR-FS
  • LucidWorks软件本身

您可以利用LucidWorks搜索功能与任何开源组件通常使用。

搜索用例

因为你的集群,该集群的搜索性能的硬件需求大幅依赖您的搜索使用的情况下,重要的是要在部署过程中及早考虑您的搜索用例的具体细节。先进的功能,如小面(文件由共同的特征的一组)可以增加你的内存要求取决于执行的小面的类型。影响群集的性能的因素包括:

  • 字段的字数
  • 外国语言检索,包括支持的语系和字符集的数量
  • 小面与面型
  • 率传入的新数据,这会影响抓取并重新索引。
  • 排序要求
  • 并发用户数

上MAPR安装LucidWorks

本指南将引导您完成设置LucidWorks安装的抓取存储在MAPR集群数据源。

开始之前

在您安装LucidWorks搜索,创建本地的MAPR集群上。这些卷将存储您的搜索索引和其它LucidWorks元数据。发出以下命令,在那里你将要运行LucidWorks每个节点上:

用户名@主机名:〜$ maprcli卷创建名LWS <HOSTNAME>本地路径的/ var / LWS /本地/ <HOSTNAME>-createparent真localvolumehost <HOSTNAME>-1的复制配额<quota SIZE>

此命令创建的每个节点为1的MAPR复制因子上的本地卷。LucidWorks已经提供了可以从LucidWorks仪表板控制复制。除了LucidWorks级别设置复制的MAPR水平将导致过度复制,造成不必要的性能损失。

验证卷已成功地与下面的创建命令

用户名@主机名:〜$ maprcli卷列表过滤器〔N ==“* LWS *”]列N,P,DRF
mountdir numreplicas卷名                   
/ var/lws/local/host1.test.lab 1 lws.host1.test.lab 
/ var/lws/local/host2.test.lab 1 lws.host2.test.lab 
/ var/lws/local/host3.test.lab 1 lws.host3.test.lab 
/ var/lws/local/host4.test.lab 1 lws.host4.test.lab 
/ var/lws/local/host5.test.lab 1 lws.host5.test.lab

LucidWorks工作需要当地NFS挂载到为了写搜索索引和其它元数据到MAPR集群的MAPR-FS层。验证NFS挂载使用以下命令存在:

用户名@主机名:〜$安装| grep的MAPR
主机1:<ip address1> :/ MAPR上/ MAPR型NFS(RW,硬,NOLOCK,地址= 192.168.0.1)
主机2:<ip address2> :/ MAPR上/ MAPR型NFS(RW,硬,NOLOCK,地址= 192.168.0.2)
host3上:<ip address3> :/ MAPR上/ MAPR型NFS(RW,硬,NOLOCK,地址= 192.168.0.3)
主机4:<ip address4> :/ MAPR上/ MAPR型NFS(RW,硬,NOLOCK,地址= 192.168.0.4)
主机5:<ip address5> :/ MAPR上/ MAPR型NFS(RW,硬,NOLOCK,地址= 192.168.0.5)

LucidWorks服务在默认情况下连接到端口8888,8989,和8765。验证这些端口是开放的。LucidWorks连接到MAPR集群的动物园管理员在端口5181,在/ LWS命名空间。

安装

  1. 下载 LucidWorks。
  2. 将下载的lucidworks搜索- <VERSION>。的tar文件在一个合适的位置在你的MAPR集群NFS挂载

    图标

    确保您从群集的MAPR-FS层,而不是Unix文件系统安装。

  3. 指定将要运行LucidWorks作为主节点的节点之一。这个节点将整个LucidWorks安装运行该服务的用户界面和连接器。
  4. 在主LucidWorks节点,安装LucidWorks用下面的命令:

    $焦油 - xvf命令lucidworks搜索 - <VERSION>。焦油
    $ Java的罐子lucidworks搜索 - <VERSION>。罐子控制台

    按照剧本的方向在整个安装过程。

    1. 当系统提示您运行LucidWorks搜索核心本地,输入1,然后指定主节点和8888端口的IP地址,格式为http:ip 地址:8888
    2. 当系统提示您运行LucidWorks搜索本地连接,输入1,然后指定主节点和端口8765的IP地址,格式为http:ip 地址:8765
    3. 当系统提示您运行LucidWorks搜索本地用户界面,输入1,然后指定主节点和端口8989的IP地址,格式为http:ip 地址:8989
    4. 输入目标路径/ MAPR / <clustername>的/ var / LWS /本地/ <HOSTNAME> / LucidWorks / LucidWorksSearch
    5. 安装完成后,系统提示时自动启动LucidWorks输入0。
  5. 对方节点,你将运行LucidWorks,安装LucidWorks用下面的命令:

    $焦油 - xvf命令lucidworks搜索 - <VERSION>。焦油
    $ Java的罐子lucidworks搜索 - <VERSION>。罐子控制台

    按照剧本的方向在整个安装过程。

    1. 当系统提示您运行LucidWorks搜索核心本地,输入1,然后指定主节点和8888端口的IP地址,格式为IP 地址:8888
    2. 当系统提示您运行LucidWorks搜索本地连接,输入0。
    3. 当系统提示您运行LucidWorks搜索本地用户界面,输入0。
    4. 输入目标路径/ MAPR / <clustername>的/ var / LWS /本地/ <HOSTNAME> / LucidWorks / LucidWorksSearch
    5. 安装完成后,系统提示时自动启动LucidWorks输入0。
  6. 您在安装步骤中指定的搜索核心节点,浏览到/ MAPR / <clustername>的/ var / LWS /本地/ <HOSTNAME> / LucidWorks / LucidWorksSearch路径,然后启动自举模式LucidWorks使用下面的命令:

    / MAPR / <clustername>的/ var / LWS /本地/ <HOSTNAME> / LucidWorks / LucidWorksSearch /应用程序/ bin中/ start.sh-lwe_core_java_opts“ - Dbootstrap_conf =真DzkHost = <zookeeper1>:5181,<zookeeper2>:5181, <zookeeper3>:shards>的5181/lws-DnumShards = <number“

    用你的MAPR集群的动物园管理员节点的IP地址。一定要追加/ LWS字符串使用保留LucidWorks命名空间MAPR的ZooKeeper的。

  7. 搜索核心白手起家后,停止LucidWorks用下面的命令:

    / MAPR / <clustername>的/ var / LWS /本地/ <HOSTNAME> / LucidWorks / LucidWorksSearch /应用程序/ bin中/ stop.sh
  8. 开始在所有节点上LucidWorks用下面的命令:

    / MAPR / <clustername>的/ var / LWS /本地/ <HOSTNAME> / LucidWorks / LucidWorksSearch /应用程序/ bin中/ start.sh-lwe_core_java_opts“ - DzkHost = <zookeeper1>:5181,<zookeeper2>:5181,<zookeeper3>: 5181/lws“

    组态

  1. 安装完成后,打开浏览器,然后导航至IP地址:8989/admin,其中IP地址是主LucidWorks节点的IP地址。默认的登录名和密码为一个新的安装都是管理员。登录您带来的仪表板:
  2. 点击用户右上方链接以显示用户界面。
  3. 操作中,按一下旁边的齿轮管理员用户,并选择编辑  设置新的管理密码。保持这个新密码的安全。
  4. (可选)单击+新用户按钮来设置新的用户。

    图标

    比其他授权级别用户管理员只能执行搜索,并没有进入到管理仪表板。

  5. 创建一个新的集合来保存你想索引的搜索数据。
  6. 从仪表板中,单击将接收存储在您的MAPR集群中的数据集合的名称。
  7. 单击  新数据源  并选择MAPR大批量从下拉。
  8. 根据LucidWorks填写表格文档,然后点击创建按钮显示为数据源的设置窗格。
  9. 点击开始抓取按钮来抓取你的MAPR集群中的数据。一旦抓取完成后,您就可以从LucidWorks搜索仪表盘的数据运行搜索。

调度周期性抓取

为了使您的搜索索引电流,安排您的MAPR数据源的重复抓取。您可以创建和编辑日程从LucidWorks控制台数据源的重复抓取。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值