Hive V1.2.1源码的解译

在利用spark sql on hive的过程中,访问Mysql总是报错,其报错的日志总是显示:
15/09/21 11:12:20 INFO MetaStoreDirectSql: MySQL check failed, assuming we are not on mysql: Lexical error at line 1, column 5.   Encountered: "@" (64), after : "".
15/09/21 11:12:20 INFO Datastore: The class "org.apache.hadoop.hive.metastore.model.MFieldSchema" is tagged as "embedded-only" so does not have its own datastore table.
15/09/21 11:12:20 INFO Datastore: The class "org.apache.hadoop.hive.metastore.model.MOrder" is tagged as "embedded-only" so does not have its own datastore table.
15/09/21 11:12:21 INFO Datastore: The class "org.apache.hadoop.hive.metastore.model.MFieldSchema" is tagged as "embedded-only" so does not have its own datastore table.
15/09/21 11:12:21 INFO Datastore: The class "org.apache.hadoop.hive.metastore.model.MOrder" is tagged as "embedded-only" so does not have its own datastore table.
15/09/21 11:12:21 INFO Query: Reading in results for query "org.datanucleus.store.rdbms.query.SQLQuery@0" since the connection used is closing
15/09/21 11:12:21 INFO ObjectStore: Initialized ObjectStore
15/09/21 11:12:21 INFO HiveMetaStore: Added admin role in metastore
15/09/21 11:12:21 INFO HiveMetaStore: Added public role in metastore
15/09/21 11:12:21 INFO HiveMetaStore: No user is added in admin role, since config is empty
15/09/21 11:12:21 INFO SessionState: No Tez session required at this point. hive.execution.engine=mr.
15/09/21 11:12:21 INFO PerfLogger:
15/09/21 11:12:21 INFO PerfLogger:
15/09/21 11:12:21 INFO Driver: Concurrency mode is disabled, not creating a lock manager
15/09/21 11:12:21 INFO PerfLogger:
15/09/21 11:12:21 INFO PerfLogger:
15/09/21 11:12:21 INFO ParseDriver: Parsing command: CREATE TABLE IF NOT EXISTS src (key INT, value STRING)
15/09/21 11:12:21 INFO ParseDriver: Parse Completed
15/09/21 11:12:21 INFO PerfLogger:
15/09/21 11:12:21 INFO PerfLogger:
15/09/21 11:12:21 INFO SemanticAnalyzer: Starting Semantic Analysis
15/09/21 11:12:21 INFO SemanticAnalyzer: Creating table src position=27
15/09/21 11:12:21 INFO HiveMetaStore: 0: get_table : db=default tbl=src
15/09/21 11:12:21 INFO audit: ugi=ndscbigdata ip=unknown-ip-addr cmd=get_table : db=default tbl=src
15/09/21 11:12:21 INFO HiveMetaStore: 0: get_database: default
15/09/21 11:12:21 INFO audit: ugi=ndscbigdata ip=unknown-ip-addr cmd=get_database: default
15/09/21 11:12:21 INFO Driver: Semantic Analysis Completed
15/09/21 11:12:21 INFO PerfLogger:
15/09/21 11:12:21 INFO Driver: Returning Hive schema: Schema(fieldSchemas:null, properties:null)
15/09/21 11:12:21 INFO PerfLogger:
15/09/21 11:12:21 INFO PerfLogger:
15/09/21 11:12:21 INFO Driver: Starting command: CREATE TABLE IF NOT EXISTS src (key INT, value STRING)
15/09/21 11:12:21 INFO PerfLogger:
15/09/21 11:12:21 INFO PerfLogger:
15/09/21 11:12:21 INFO PerfLogger:
15/09/21 11:12:21 INFO DDLTask: Default to LazySimpleSerDe for table src
15/09/21 11:12:21 INFO HiveMetaStore: 0: create_table: Table(tableName:src, dbName:default, owner:ndscbigdata, createTime:1442805141, lastAccessTime:0, retention:0, sd:StorageDescriptor(cols:[FieldSchema(name:key, type:int, comment:null), FieldSchema(name:value, type:string, comment:null)], location:null, inputFormat:org.apache.hadoop.mapred.TextInputFormat, outputFormat:org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputF ormat, compressed:false, numBuckets:-1, serdeInfo:SerDeInfo(name:null, serializationLib:org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, parameters:{serialization.format=1}), bucketCols:[], sortCols:[], parameters:{}, skewedInfo:SkewedInfo(skewedColNames:[], skewedColValues:[], skewedColValueLocationMa ps:{}), storedAsSubDirectories:false), partitionKeys:[], parameters:{}, viewOriginalText:null, viewExpandedText:null, tableType:MANAGED_TABLE)
15/09/21 11:12:21 INFO audit: ugi=ndscbigdata ip=unknown-ip-addr cmd=create_table: Table(tableName:src, dbName:default, owner:ndscbigdata, createTime:1442805141, lastAccessTime:0, retention:0, sd:StorageDescriptor(cols:[FieldSchema(name:key, type:int, comment:null), FieldSchema(name:value, type:string, comment:null)], location:null, inputFormat:org.apache.hadoop.mapred.TextInputFormat, outputFormat:org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputF ormat, compressed:false, numBuckets:-1, serdeInfo:SerDeInfo(name:null, serializationLib:org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, parameters:{serialization.format=1}), bucketCols:[], sortCols:[], parameters:{}, skewedInfo:SkewedInfo(skewedColNames:[], skewedColValues:[], skewedColValueLocationMa ps:{}), storedAsSubDirectories:false), partitionKeys:[], parameters:{}, viewOriginalText:null, viewExpandedText:null, tableType:MANAGED_TABLE)
15/09/21 11:12:21 ERROR RetryingHMSHandler: MetaException(message:file:/user/hive/warehouse/src is not a directory or unable to create one)
at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.create_table_core(HiveMetaStore.java:1239)
at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.create_table_with_environment_context(HiveMetaStore.java:1294)
at sun.reflect.NativeMethodAccessorImpl .invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl .invoke(NativeMethodAccessorImpl .java:62)
at sun.reflect.DelegatingMethodAccessor Impl.invoke(DelegatingMethodAccessor Impl.java:43)
at java.lang.reflect.Method.invoke(Method.java:497)
at org.apache.hadoop.hive.metastore.RetryingHMSHandler.invoke(RetryingHMSHandler.java:105)
at com.sun.proxy.$Proxy21.create_table_with_environment_context(Unknown Source)
at org.apache.hadoop.hive.metastore.HiveMetaStoreClient.createTable(HiveMetaStoreClient.java:558)
at org.apache.hadoop.hive.metastore.HiveMetaStoreClient.createTable(HiveMetaStoreClient.java:547)
at sun.reflect.NativeMethodAccessorImpl .invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl .invoke(NativeMethodAccessorImpl .java:62)
at sun.reflect.DelegatingMethodAccessor Impl.invoke(DelegatingMethodAccessor Impl.java:43)
at java.lang.reflect.Method.invoke(Method.java:497)
at org.apache.hadoop.hive.metastore.RetryingMetaStoreClient.invoke(RetryingMetaStoreClient.java:89)
at com.sun.proxy.$Proxy22.createTable(Unknown Source)
at org.apache.hadoop.hive.ql.metadata.Hive.createTable(Hive.java:613)
at org.apache.hadoop.hive.ql.exec.DDLTask.createTable(DDLTask.java:4189)
at org.apache.hadoop.hive.ql.exec.DDLTask.execute(DDLTask.java:281)
at org.apache.hadoop.hive.ql.exec.Task.executeTask(Task.java:153)
at org.apache.hadoop.hive.ql.exec.TaskRunner.runSequential(TaskRunner.java:85)
at org.apache.hadoop.hive.ql.Driver.launchTask(Driver.java:1503)
at org.apache.hadoop.hive.ql.Driver.execute(Driver.java:1270)
at org.apache.hadoop.hive.ql.Driver.runInternal(Driver.java:1088)
at org.apache.hadoop.hive.ql.Driver.run(Driver.java:911)
at org.apache.hadoop.hive.ql.Driver.run(Driver.java:901)
at org.apache.spark.sql.hive.client.ClientWrapper$$anonfun$runHive$1.apply(ClientWrapper.scala:329)
at org.apache.spark.sql.hive.client.ClientWrapper$$anonfun$runHive$1.apply(ClientWrapper.scala:310)
at org.apache.spark.sql.hive.client.ClientWrapper.withHiveState(ClientWrapper.scala:139)
at org.apache.spark.sql.hive.client.ClientWrapper.runHive(ClientWrapper.scala:310)
at org.apache.spark.sql.hive.client.ClientWrapper.runSqlHive(ClientWrapper.scala:300)
at org.apache.spark.sql.hive.HiveContext.runSqlHive(HiveContext.scala:472)
at org.apache.spark.sql.hive.execution.HiveNativeCommand.run(HiveNativeCommand.scala:33)
at org.apache.spark.sql.execution.ExecutedCommand.sideEffectResult$lzycompute(commands.scala:57)
at org.apache.spark.sql.execution.ExecutedCommand.sideEffectResult(commands.scala:57)
at org.apache.spark.sql.execution.ExecutedCommand.doExecute(commands.scala:68)
at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:88)
at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:88)
at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:148)
at org.apache.spark.sql.execution.SparkPlan.execute(SparkPlan.scala:87)
at org.apache.spark.sql.SQLContext$QueryExecution.toRdd$lzycompute(SQLContext.scala:939)
at org.apache.spark.sql.SQLContext$QueryExecution.toRdd(SQLContext.scala:939)
at org.apache.spark.sql.DataFrame.(DataFrame.scala:144)
at org.apache.spark.sql.DataFrame.(DataFrame.scala:128)
at org.apache.spark.sql.DataFrame$.apply(DataFrame.scala:51)
at org.apache.spark.sql.SQLContext.sql(SQLContext.scala:744)
at org.apache.spark.examples.sql.hive.HiveFromSpark$.main(HiveFromSpark.scala:50)
at org.apache.spark.examples.sql.hive.HiveFromSpark.main(HiveFromSpark.scala)


由于网上对这一块的东西介绍得总是很少,按照操作也总是无解,于是自己想着先把HIVE源码编译一下,花了半天时间,终于搞定。

编译环境:Eclipse

欢迎交流学习,邮箱号:sparkexpert@sina.com

 

Hive <wbr>V1.2.1源码的解译

### 回答1: Python可以通过以下方式连接Hive、Spark和MySQL: 1. Hive连接方式: - 使用pyhive库连接Hive:pyhive是一个Python库,可以通过它连接Hive。需要安装pyhive和thrift库,然后使用pyhive.connect()方法连接Hive。 - 使用pyhs2库连接Hive:pyhs2是另一个Python库,可以连接Hive。需要安装pyhs2和thrift库,然后使用pyhs2.connect()方法连接Hive。 2. Spark连接方式: - 使用pyspark库连接Spark:pyspark是一个Python库,可以连接Spark。需要安装pyspark库,然后使用SparkSession.builder.appName()方法创建SparkSession对象,从而连接Spark。 3. MySQL连接方式: - 使用pymysql库连接MySQL:pymysql是一个Python库,可以连接MySQL。需要安装pymysql库,然后使用pymysql.connect()方法连接MySQL。 - 使用mysql-connector-python库连接MySQL:mysql-connector-python是另一个Python库,可以连接MySQL。需要安装mysql-connector-python库,然后使用mysql.connector.connect()方法连接MySQL。 ### 回答2: Python和Hive都是在数据处理领域应用非常广泛的工具,它们分别有着各自的优点和适用场景。 Python作为一种高级编程语言,拥有简洁明了的语法,非常适合用于数据分析和机器学习等领域的编程。Python的强大之处主要体现在其丰富的第三方库和工具上。例如,NumPy、Pandas、Matplotlib和Scikit-learn等库,提供了非常丰富的数据处理和分析工具,可以快速高效地进行数据处理和可视化分析。此外,Python还支持多种数据格式的读写和转换,如JSON、CSV、Excel等,方便用户进行非常灵活、精确和高效的数据处理。 Hive则是基于Hadoop平台的一种数据仓库解决方案,其优点主要在于其分布式数据处理能力。Hive使用HQL(Hive Query Language)来进行数据查询和转换,其语法类似于SQL,十分显式和易懂。同时,Hive支持多种文件存储格式,如ORC、Parquet等,这些文件格式可对数据进行压缩、格式转换和序列化等操作,提高数据查询和处理的效率。 与Python相比,Hive的强大之处在于其支持分布式集群环境下的大数据处理,可以处理TB级甚至更大规模的数据集。而Python适合处理较小规模的数据集,具有更灵活、易用和迭代化的特点,可以适用更多的数据处理应用场景。 在实际的数据处理应用中,Python和Hive可以互补使用。例如,在处理数据集较小的场合下,可以使用Python来进行数据清洗、处理和分析,最后将数据存储到Hive中进行查询和存储。而在处理较大数据集的场合下,Hive可以作为数据仓库来进行数据存储和查询,同时可以使用Python在集群环境下编写UDF(User Defined Function),进行更加复杂和高效的数据计算和处理。 综上所述,Python和Hive都是非常优秀的数据处理工具,它们根据不同的应用场景和需求,可以灵活地进行选择和搭配,从而提高数据处理的效率和质量。 ### 回答3: Python与Hive都是非常流行的数据处理工具,二者有着各自的优缺点和适用范围。 Python是一种高级编程语言,广泛应用于数据处理、科学计算、Web开发和人工智能等领域,具有简洁、易学、可读性强等特点。对于数据分析与处理来说,Python有着灵活的语法和丰富的数据处理库,如NumPy,Pandas和Scipy等,可以快速实现数据清洗、处理、分析等操作。Python还提供了大量的可视化工具,如Matplotlib和Seaborn等,可以轻松生成各种图表和可视化分析结果。 Hive是一种基于Hadoop的数据仓库解决方案,专门用于处理大规模数据集,具有分布式的,可扩展的,高效的特点。Hive使用SQL-like的查询语言HQL(Hive Query Language),可以将复杂的MapReduce任务转化为SQL查询,可以进行快速的数据分析和查询。Hive提供了丰富的内置函数、数据类型和聚合函数等,可以方便地进行数据清洗和分析,同时支持自定义函数和UDFs,满足用户的个性化需求。 从功能特点上来看,Python适用于数据分析、建模和可视化等领域,可以方便地进行数据清洗、处理和分析,尤其对于小规模和中等规模的数据集处理效率高。而Hive则专注于大规模数据集的处理和分析,能够高效地处理PB级别的数据,但由于Hive属于批处理框架,不适合实时数据处理。 综上所述,Python和Hive各自有各自的优势和适用场景,具体应该根据实际需求来选择使用哪种工具。在实际应用中,Python和Hive也可以相互配合,Python可用于数据清洗和预处理,Hive可用于海量数据处理和分析,从而构建高效、可靠的数据处理与分析体系。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值