datacleaner第五部分

最新推荐文章于 2024-04-16 09:44:00 发布

SunWuKong_Hadoop

最新推荐文章于 2024-04-16 09:44:00 发布

阅读量753

点赞数 2

分类专栏： datacleaner

datacleaner 专栏收录该内容

15 篇文章 4 订阅

订阅专栏

第五部分。DataCleaner监控存储库

表的内容

15。存储库配置

配置存储库位置

目录的存储库数据库支持的库

提供Java WebStart客户机文件签署

生产签名jar 配置DataCleaner监控使用签名jar

集群配置(分布式执行)

16。仓库布局

多租户的布局

租户家里的布局

第15章。存储库配置

文摘

在这一章里,我们将解释配置的存储库DataCleaner监视的web应用程序。默认存储库和其他构件打包的应用程序,但是对于生产部署此配置可能是不够的。了解如何部署存储库位于独立的web应用程序的代码。

表的内容

配置存储库位置

目录的存储库数据库支持的库

提供Java WebStart客户机文件签署

生产签名jar 配置DataCleaner监控使用签名jar

集群配置(分布式执行)

配置存储库位置

默认DataCleaner监视web应用程序使用一个基于文件的存储库位置相对于部署web存档。这使它容易部署和测试,但它可能不是最好的生产部署选择。

目录的存储库

改变仓库的位置,创建或查找文件 $ { user.home } / .datacleaner / datacleaner-monitor.properties。确保它包��一个关键repository.file。位置”,将它的值设置为你希望的位置。例如:

repository.file.location=/var/datacleaner/repository

存储库目录的方法是建议单机DataCleaner监视的实例。如果你有一个DataCleaner服务器集群请参考下面的数据库支持的存储库配置。

数据库支持的库

数据库支��的存储库的方法使多个服务器实例共享相同的存储库。要启用它,请执行以下指令。

在配置文件中 $ { user.home } / .datacleaner / datacleaner-monitor.properties你应该首先配置以下键与数据库的JDBC连接细节(分别url、驱动程序、用户名和密码):

backend.datastore.jdbc.url= backend.datastore.jdbc.driver= backend.datastore.username= backend.datastore.password=

现在去DataCleaner-monitor安装和它的位置。在Apache Tomcat war文件是爆炸(这将是Tomcat的webapps文件夹)。定位文件: / repository-context.xml DataCleaner-monitor / web - inf / classes /上下文。在这个文件中您将看到两个bean定义id =“库”。其中一个是活跃的(基于文件)在默认情况下,一个评论(数据库变种)。

改变它的基于文件的存储库bean是评论,支持数据库的存储库是活跃。同时考虑两个值“公共”和“BLOB”。这些应该改变如果必要数据库的模式名称和BLOB数据类型名称/字节的特定数据库(通常是“BLOB”或“bytea”)。你应该得到一个元素类似于:

提供Java WebStart客户机文件签署

DataCleaner监控web应用程序功能的选项让用户推出的桌面应用程序编辑在monitor服务器上部署和测试工作。启用这种特殊模式的互操作性,需要提供签名的JAR文件,因为否则桌面应用程序不允许启动大多数Java运行时配置。

生产签名jar

默认DataCleaner监控将使用一组公共的DataCleaner JAR文件来启动Java Web Start客户机(当点击“分析”按钮在“调度”和“数据存储”页)。

如果您的服务器没有上网,你可以提供你自己的组DataCleaner Java Web Start客户机JAR文件。过程涉及签署这些JAR文件,这可能取决于一个证书的可用性。如果没有证书是可用的,你也可以self-sign罐子,但这将导致一个警告之前弹出启动客户端。

深入的信息可以找到JAR文件签名对甲骨文的网站:http://docs.oracle.com/javase/tutorial/deployment/jar/signing.html

对于这个安装的目的,您将需要创建一个Java keystore别名,可以基于一个证书。如果这是你,你只是想要使用简单的自签名的JAR文件,发出以下命令:

keytool -keystore "%JAVA_HOME%/jre/lib/security/cacerts" -genkey -alias my_alias

你将被提示输入密钥存储库密码,默认是“changeit”。

运行命令后,它最终会产生一个别名在您的密钥存储库。

DataCleaner安装后,安装文件夹将包含这两个可执行文件,这取决于操作系统:

sign-jar-files.cmd (on windows systems) sign-jar-files.sh (on unix systems)

打开相应的可执行文件。它将会有一个这样的前部分(的例子。cmd文件。的。sh文件没有“集”字):

set ALIAS=my_alias set KEYPASS=my_password set SIGFILE=

的KEYPASS变量设置为别名密码。

设置别名变量的别名。

可选设置SIGFILE变量的名字你的签名。

sign-jar-files可执行文件运行。一个文件夹命名signed_jars将产生的安装目录。

配置DataCleaner监控使用签名jar

在$ { user.home } / .datacleaner / datacleaner-monitor。属性文件可以定义“jnlp.artifacts。位置的属性,它应该指向你签名的JAR文件的目录。这是默认的定义:

jnlp.artifacts.location=${user.home}/.datacleaner/jnlp-launch-artifacts

后重新启动DataCleaner监控配置这个属性。

集群配置(分布式执行)

DataCleaner监控允许通过集群的机器执行的工作——本质上增加容错和性能通过添加更多的机器而不是单个机器的升级硬件。

当执行分布式工作,DataCleaner最初将估计有多少记录需要处理。根据这个数字,“块”的记录将被分配在不同的奴隶执行节点上执行。执行后,主节点将收集奴隶节点的结果并将它们合并到一个结果报告。

DataCleaner配置的集群处理文件 web - inf / classes /背景/ cluster-context.xml在部署web存档文件夹。默认情况下它定义了这个<憨豆先生>元素:

<bean id="clusterManagerFactory" class="org.datacleaner.monitor.cluster.HttpClusterManagerFactory"> <property name="username" value="admin" /> <property name="password" value="admin" /> <property name="slaveServerUrls"> <list> <value>http://localhost:8080/DataCleaner-monitor</value> <value>http://localhost:9090/DataCleaner-monitor</value> </list> </property> </bean>

上面的定义指出集群有两个奴隶执行节点。作为一个例子,这些都是使用“localhost”引用,但是您还可以使用其他的主机名。

使集群执行工作,你需要打开它 .schedule.xml“工作”文件夹的文件存储库。在这个XML文件,您将找到一个<分布式执行>元素决定如果当地或分布式执行将被执行。例如,文件的客户completeness.schedule。xml的开始是这样的:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?> <schedule xmlns="http://eobjects.org/datacleaner/schedule/1.0" xmlns:ns2="http://eobjects.org/datacleaner/shared/1.0" xmlns:ns3="http://eobjects.org/datacleaner/timeline/1.0" xmlns:ns4="http://eobjects.org/datacleaner/execution-log/1.0"> <cron-expression>@daily</cron-expression> <distributed-execution>false</distributed-execution> <alerts> ... </alerts> </schedule>

改变这个值“真实”将引发DataCleaner监控执行时使用集群配置工作。

提示

的企业版DataCleaner还包括其他机制的集群节点之间的通信。上述方法的一个缺陷是不能容忍网络问题或崩溃节点。这样的部署考虑DataCleaner企业版,因为它支持弹性集群没有主意识到每一个节点。

第十六章。仓库布局

文摘

在这一章里,我们看的文件和文件夹布局DataCleaner监控存储库。多租户布局开始,然后继续与一个典型的租户的库布局。

表的内容

多租户的布局

租户家里的布局

多租户的布局

DataCleaner库布局,监测所使用的web应用程序,构建支持多租户的部署。因此,存储库的根级别,文件夹所在,每个代表一个租户的单独的主文件夹。从一个租户的用户无法从其他租户访问文件或文件夹的文件夹。

默认情况下,服务器被配置为单租户实例。企业版的DataCleaner这可以重新配置在以下方面:

租户每用户:为每个用户提供了一个完全分离的工作空间的监视服务器。
手工用户组:租户手动配置的配置使用一个用户名的列表。
动态租户管理:对客户我们可以提供动态租户管理模块,建议与例如LDAP系统来确定任何特定用户的租户。

租户家里的布局

正常运行,每个租户主文件夹需要这些文件和文件夹:

conf.xml(文件)
工作(文件夹)
结果(文件夹)
时间(文件夹)

的 conf.xml文件表示的DataCleaner配置特定的租户。描述的文件格式是一样的配置文件一章。推荐使用提供的示例conf.xml文件(“直流”租户)作为模板进行进一步定制。专门为task-runner自定义元素,descriptor-provider和存储提供商在这个模板conf.xml文件建议最佳性能。

文件夹都是管理由DataCleaner监视web应用程序,所以只有在极少数情况下你应该手动与它们进行交互。

允许添加更多的文件和文件夹租户回家。这些不会管理的监控应用程序,但可以引用。作为数据存储的文件名路径conf.xml中定义。

SunWuKong_Hadoop

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
datacleaner第五部分

第五部分。DataCleaner监控存储库表的内容15。存储库配置配置存储库位置目录的存储库数据库支持的库提供Java WebStart客户机文件签署生产签名jar配置DataCleaner监控使用签名jar集群配置(分布式执行)16。仓库布局多租户的布局租户家里的布局
复制链接

扫一扫