pentahoBIsever+kettle进行大数据数据抽取任务调度(job)的排坑记录

软件版本

pentahoBIserver

pentaho-server-ce-8.2.0.0-342.zip

Kettle 

pdi-ce-8.2.0.0-342.zip

 

系统版本

CentOS Linux release 7.4.1708 (Core) 

 

相关参考

 

PentahoBIserver安装和迁移元数据库至mysql

推荐参考本篇(博客 1-3内容)

https://www.cnblogs.com/driftingshine/p/6065454.html

官方文档(配置修改部分 不全会导致其他问题 但可以参考)

https://help.pentaho.com/Documentation/8.1/Setup/Installation/Archive/MySQL_Repository

步骤明确(可惜图裂)

https://blog.csdn.net/timplenty/article/details/84530167

 

以下kettle相关

系列kettle使用

https://blog.csdn.net/qq_32448349/article/details/87882701

kettle从零开始系列

https://blog.csdn.net/MR_REN019235/article/details/78645476

kettle案例九-----linux使用kettle

https://blog.csdn.net/zzq900503/article/details/79110810

 

1.pentahoBIserver安装

1.1从官方下载所需版本的pentahoBIserver.zip压缩包 

1.2按照相关参考修改对应配置

1.3连接进入liunx服务器 进入对应目录

# cd /opt/

1.4上传文件 

# sz 

1.5解压文件

# unzip pentaho-server-ce-8.2.0.0-342.zip

1.6进入pentahoBIserver根目录
# cd /opt/pentaho-server/

1.7运行start.sh 启动服务

# ./start-pentaho.sh

1.8查看服务器运作状态

# ps -ef|grep pentaho

显示如下内容则说明服务器启动成功


root      4512     1  0 May14 ?        00:08:38 /usr/local/java/bin/java -Djava.util.logging.config.file=/opt/pentaho-server/tomcat/conf/logging.properties -Djava.util.logging.manager=org.apache.juli.ClassLoaderLogManager -Djdk.tls.ephemeralDHKeySize=2048 -Djava.protocol.handler.pkgs=org.apache.catalina.webresources -Dorg.apache.catalina.security.SecurityListener.UMASK=0027 -Xms2048m -Xmx6144m -XX:MaxPermSize=256m -Dsun.rmi.dgc.client.gcInterval=3600000 -Dsun.rmi.dgc.server.gcInterval=3600000 -Dfile.encoding=utf8 -DDI_HOME=/opt/pentaho-server/pentaho-solutions/system/kettle -Dignore.endorsed.dirs= -classpath /opt/pentaho-server/tomcat/bin/bootstrap.jar:/opt/pentaho-server/tomcat/bin/tomcat-juli.jar -Dcatalina.base=/opt/pentaho-server/tomcat -Dcatalina.home=/opt/pentaho-server/tomcat -Djava.io.tmpdir=/opt/pentaho-server/tomcat/temp org.apache.catalina.startup.Bootstrap start
root     20531 20123  0 09:53 pts/1    00:00:00 grep --color=auto pentaho

 

2.排坑相关

2.1pentahoBIserver运行日志位置

/opt/pentaho/pentaho-server/tomcat/logs/pentaho.log

为便于查看日志可将logs文件夹映射到 tomcat/pentaho/下
然后通过 
IP:8080/logs/pentaho.log 访问

2.2 kettle连接pentaho报错 

错误表现 本地kteele不连接pehtaho可正常使用 但是连接pentaho后一系列各种报错

主要报错 将共享对象读到转换***时发生错误

解决方式 重装解决

原因分析 具体原因未知 疑似配置有错

历史截图

2.3 pentaho调用job无效

错误表现 计划任务后立即执行 显示运行时间 但无效(对应数据库无数据产生)

主要报错 pentaho启动时报错

2019-05-07 08:48:39,967 DEBUG [org.pentaho.di.core.vfs.ConcurrentFileSystemManager] Using "/opt/pentaho/pentaho-server/tomcat/temp/vfs_cache" as temporary files store.

2019-05-07 08:48:40,009 DEBUG [org.pentaho.di.core.vfs.ConcurrentFileSystemManager] Skipping provider "org.apache.commons.vfs2.provider.webdav.WebdavFileProvider" because required class "org.apache.jackrabbit.webdav.client.methods.DavMethod" is not available.

2019-05-07 08:49:03,905 ERROR [org.quartz.core.ErrorLogger] An error occured while scanning for the next trigger to fire.

org.quartz.JobPersistenceException: Couldn't acquire next trigger: You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'OPTION SQL_SELECT_LIMIT=5' at line 1 [See nested exception: com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'OPTION SQL_SELECT_LIMIT=5' at line 1]

at org.quartz.impl.jdbcjobstore.JobStoreSupport.acquireNextTrigger(JobStoreSupport.java:2785)

at org.quartz.impl.jdbcjobstore.JobStoreSupport$36.execute(JobStoreSupport.java:2728)

at org.quartz.impl.jdbcjobstore.JobStoreSupport.executeInNonManagedTXLock(JobStoreSupport.java:3742)

at org.quartz.impl.jdbcjobstore.JobStoreSupport.acquireNextTrigger(JobStoreSupport.java:2724)

at org.quartz.core.QuartzSchedulerThread.run(QuartzSchedulerThread.java:263)

Caused by: com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'OPTION SQL_SELECT_LIMIT=5' at line 1

at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)

at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)

at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)

at java.lang.reflect.Constructor.newInstance(Constructor.java:423)

at com.mysql.jdbc.Util.handleNewInstance(Util.java:411)

at com.mysql.jdbc.Util.getInstance(Util.java:386)

at com.mysql.jdbc.SQLError.createSQLException(SQLError.java:1052)

at com.mysql.jdbc.MysqlIO.checkErrorPacket(MysqlIO.java:3597)

at com.mysql.jdbc.MysqlIO.checkErrorPacket(MysqlIO.java:3529)

at com.mysql.jdbc.MysqlIO.sendCommand(MysqlIO.java:1990)

at com.mysql.jdbc.MysqlIO.sqlQueryDirect(MysqlIO.java:2151)

at com.mysql.jdbc.ConnectionImpl.execSQL(ConnectionImpl.java:2619)

at com.mysql.jdbc.StatementImpl.executeSimpleNonQuery(StatementImpl.java:1606)

at com.mysql.jdbc.PreparedStatement.executeQuery(PreparedStatement.java:2268)

at org.apache.commons.dbcp.DelegatingPreparedStatement.executeQuery(DelegatingPreparedStatement.java:96)

at org.apache.commons.dbcp.DelegatingPreparedStatement.executeQuery(DelegatingPreparedStatement.java:96)

at org.quartz.impl.jdbcjobstore.StdJDBCDelegate.selectTriggerToAcquire(StdJDBCDelegate.java:2921)

at org.quartz.impl.jdbcjobstore.JobStoreSupport.acquireNextTrigger(JobStoreSupport.java:2742)

... 4 more

查看报错可以发现提示JDBC有错误

解决办法 更新JDBC版本 删除(移动)原有版本 重启服务器

如下图中 mysql-connector-java-5.1.47.jar就是替换后版本

ODBC 或JDBC 报错

将对应版本(更新版本)放入如下文件 重启pentaho-server

cd /opt/pentaho-server/tomcat/lib/

原因分析 jdbc.jar包版本错位导致报错 直接导致无法调用JOB

历史截图

2.4 Mysql 密码过于简单解决方法

错误表现 生产环境中根据默认配置(安装文件中的sql脚本)创建mysql数据库用户和密码时报错

主要报错 error 1819(HY000):your password does not satisfy

解决办法 临时改变mysql策略 初始化mysql元数据库后再恢复

原因分析 mysql默认配置限制密码组成包括大小写字母和数字且长度大于8位

历史截图

 

参考链接 

https://www.jb51.net/article/95399.htm

2.5 使用基础设置 

错误表现 看不见上传的文件    显示为英文界面

主要报错 就是看不见              英文读不懂

解决办法 设置显示隐藏文件   设置语言 简体中文

原因分析 本地上传文件默认隐藏 英语4级没过

历史截图

2.6 批量上传文件

错误表现 上传只能一个一个传 传压缩包也不行

解决办法 内含文件名不要用中文 或者转码成 %E4%BD%9C%E4%B8%9A+2  形式 这个对应中文 作业2

原因分析 上传文件设置

参考链接

https://my.oschina.net/u/2862573/blog/1611077

2.7字符集乱码问题等多个使用问题

数据问题,比如MySQL输入表中存在日期为 0000-00-00 00:00:00, 会导致表输入读取错误

Kettle 默认会把空字符串转换为NULL,如果输入表和输出表对特定字段均限定不许为空,则会导致表输出错误

参考链接

https://www.cnblogs.com/driftingshine/p/6074589.html

2.8 kettle.properties文件位置 

/home/{user}/.kettle/

# cd /root/.kettle/kettle.properties

2.9 ERROR_0004

错误表现 web页面一切换中文日志输出报错

主要报错 

2019-05-14 15:03:01,735 ERROR [org.pentaho.platform.web.servlet.GenericServlet] GenericServlet.ERROR_0004 - Resource /pentaho-cdf-dd/lang/messages_zh.properties not found in plugin pentaho-cdf-dd

解决办法 复制个文件进对应路径然后 !!!重启pentaho-server

文件所在路径

/opt/pentaho-server/pentaho-solutions/system/common-ui/resources/web/compressed/dojo/pentaho/common/nls/messages_zh.properties

/opt/pentaho-server/pentaho-solutions/system/common-ui/resources/web/dojo/pentaho/common/nls/messages_zh.properties

将对应文件放入如下路径

#cd /opt/pentaho-server/pentaho-solutions/system/pentaho-cdf-dd/lang/

原因分析 缺少对应文件

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: Kettle是一种开源的ETL(提取、转换和加载)工具,用于将数据从一个地方移动到另一个地方,并在过程中进行转换和清洗。 要调度Kettle来处理实时数据,你需要: 1. 配置数据源:配置Kettle连接到你要从中获取数据的地方,如数据库、文件或API。 2. 设计转换:使用Kettle的可视化编辑器设计转换,指定数据从源处流向目标处的转换逻辑。 3. 设置调度:使用Kettle的调度功能,设置转换的执行时间间隔和其他调度参数。 4. 运行转换:启动Kettle调度程序,让它根据设定的时间间隔自动执行转换。 希望这些信息对你有所帮助。如果你有其他问题,可以继续提问。 ### 回答2: Kettle(也称为Pentaho Data Integration)是一款功能强大的ETL(Extract, Transform, Load)工具,可用于调度和处理实时数据。以下是Kettle如何进行实时数据调度的步骤: 1. 数据源连接:首先,使用Kettle连接到实时数据源。Kettle支持各种数据源,如关系型数据库、文件、API、NoSQL数据库等。通过提供正确的连接信息和凭据,Kettle能够与数据源建立连接。 2. 抽取数据:一旦与数据源建立连接,Kettle可以执行抽取操作来获取实时数据。可以使用Kettle的输入步骤(如Table Input或Excel Input)来读取数据源中的数据。根据实时数据的特性,可以设置适当的读取频率,以确保数据是最新的。 3. 数据转换:在数据抽取之后,需要进行数据转换操作。Kettle提供了多个转换步骤,可以用来处理数据。例如,可以使用“数据整理”步骤对数据进行清洗、过滤、排序、聚合等操作。还可以使用“字段计算”步骤对数据进行计算、转换、格式化等操作。通过将这些步骤连接起来,可以构建复杂的数据转换逻辑。 4. 数据加载:转换数据后,需要将处理后的数据加载到目标位置,例如关系型数据库表或文件。Kettle提供了各种输出步骤,可将数据写入目标位置。可以使用“Table Output”步骤将数据写入数据库表,也可以使用“Text File Output”步骤将数据写入文本文件。 5. 定时调度:为了实现实时数据调度,Kettle提供了调度功能。可以使用Kettle的定时器或调度器来设置作业的调度规则。这样,可以指定Kettle在特定的时间间隔或特定的时间点自动执行数据调度作业。 总结:Kettle通过连接到数据源、抽取数据、转换数据、加载数据和定时调度等步骤,可以实现对实时数据的调度。这个过程可以确保数据的准确性和及时性,使得企业可以快速有效地利用实时数据进行分析和决策。 ### 回答3: kettle(又称为Pentaho Data Integration)是一种开源的ETL(抽取、转换和加载)工具,可用于处理实时数据。下面是一种将kettle用于实时数据调度的常见方法: 1. 数据抽取:首先,需要从数据源中抽取实时数据。可以使用kettle提供的多种输入组件,如数据库连接、文件读取等,根据实际需求选择适当的组件。通过配置连接参数和查询条件,可以定期或实时抽取数据。 2. 数据转换:一旦数据抽取kettle中,可以使用转换组件对数据进行清洗、过滤、转换等操作。例如,可以使用过滤器删除不需要的数据行,使用转换器将数据格式转换为目标格式等。 3. 数据加载:在数据转换完成后,可以使用kettle的输出组件将数据加载到目标系统中。根据实际需求,可以选择合适的输出方式,如数据库插入、文件输出等。需要根据目标系统的要求进行配置。 4. 调度设置:为了实现实时数据处理,需要设置kettle的调度功能。可以使用kettleJob功能,通过定义任务和触发条件,定期或实时地执行抽取、转换和加载操作。可以根据业务需求设置不同的调度频率和触发条件。 5. 监控和错误处理:在实时数据处理过程中,需要进行监控和错误处理。kettle提供了日志记录和错误处理的功能,可以及时发现和解决潜在的问题。通过监控日志和错误信息,可以持续改进和优化数据处理流程。 总的来说,kettle是一个功能强大的工具,可以帮助实现实时数据的调度和处理。通过合理配置抽取、转换和加载操作,以及有效设置调度功能,可以实现对实时数据的及时处理和分发。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

梦魇泪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值