版本:IBM InfoSphere DataStage V11.5.1
操作系统:linux redhat 6.4
平台:Apache Hadoop 2.6.0-cdh5.9.0
场景:
需要将数仓的表数据,加载到Hive 数据库供 Spark 分发数据。虽然测试成功,但是经过测试效率太慢。最后将数据存放到Hdfs Hive 做外部映射表实现。
另外DS11.5版本已经提供链接Hive 接口,同时支持链接Hice控件。
步骤1:
登陆DS服务器 编辑
/opt/IBM/InformationServer/Server/DSEngine/.odbc.ini
[T_HIVE]
Driver=/onstarlog/IBM/InformationServer/Server/branded_odbc/lib/VMhive00.so
Description=DataDirect Apache Hive Wire Protocol
ArraySize=16384
AuthenticationMethod=0
Database=default
DefaultLongDataBuffLen=1024
EnableDescribeParam=0
GSSClient=native
HostName= 按照Hive节点IP
LoginTimeout=30
LogonID=
MaxVarcharSize=8192
Password=
PortNumber=10000
ProxyUser=
RemoveColumnQualifiers=0
ServicePrincipalName=
StringDescribeType=12
TransactionMode=0
UseNativeCatalogFunctions=0
UseCurrentSchema=0
WireProtocolVersion=0
步骤2:
登陆DS服务器 编辑
DBMSTYPE = ODBC
步骤3:
因为Hive 插入表语法和DS插入表语法不一致,所以只能手工写脚本
INSERT INTO Hive_Table VALUES( ORCHESTRATE.col1, ORCHESTRATE.col2)