翰文不是瀚-CSDN博客

原创 spark-shell与spark-sql的访问hive

1.spark-shell的使用：安装完spark之后，将spark/bin的路径配置到本地文件，即可不需要进入spark/bin目录下启动任务1）直接打开，运行以下命令会发现无法访问hive表的数据：spark-shell --master local[2]spark.sql("show tables").show()2）将hive/conf目录下的hive-site....

2018-11-22 23:44:10 2523

原创 SparkSession的使用

简单的来说，SparkSession是Spark2.0版本中SparkContext更好用的接口package com.imooc.sparkimport org.apache.spark.sql.SparkSession/** * @author lihanwen * SparkSession是spark2.0之后才有的，可以用来替代SparkContext */objec...

2018-11-22 23:16:17 873

原创 SparkContext任务本地开发与服务器运行

正确启动spark的本地模式与standalone模式之后，我们进入spark项目的开发。1.本地开发：在IDEA中新建一个maven工程：1）maven基础坐标如下： <groupId>com.imooc.spark</groupId> <artifactId>sql</artifactId> <version&g...

2018-11-20 22:37:16 496

原创 hive中的map join

本文主要讲述一下自己在hive中使用map join遇到的一些问题。语言过于直白，请谅解1.什么是map join？map join主要是在关联的时候使用，hive开启map join后可以将关联的小表放入内存中去执行，以此来提高脚本的运行速度 2.map join如何设置？set hive.auto.convert.join=false; --false表示关闭m...

2018-11-18 22:51:30 1986

原创 Spark基础之--启动local与standalone模式

我们得到编译好的spark压缩包之后，进行解压；随后进入spark文件夹，获取到spark的路径：/home/xxx/app/spark-2.1.0-bin-2.6.0-cdh5.7.0为了后续使用方便，我建议将spark的路径添加到本地配置（~/.bash_profile）export SPARK_HOME=/home/xxx/app/spark-2.1.0-bin-2.6.0-...

2018-11-06 22:20:51 1369

原创 hive中max函数无法区分字符串类型的数字

问题描述：需要针对版本号app_version如：6.14.2，6.7.1，10.2.1进行取最大值原先方法：max(app_version) 结论：失败原因：hive中使用max将会默认对两个字符串从左至右挨个进行比较，即进行第三位比较时发现：“1<7”,故6.14.2<6.7.1 解决方法：首先针对hive本身的函数max无法直接解决，则可以将数据...

2018-10-24 01:42:14 7069

原创 CentOS 7下静态IP配置的一些坑

写在前面：请大神绕道，本人菜鸡，要不是想尝鲜爽一爽7，根本不会遇到这些神坑。虽然不难，但菜鸡的我还是搞了一晚上……真的哭出声来……1、创建虚拟机这个地方我就不赘述了，要是不会……额，百度一波吧2、配置静态IP：7不同于6，图像化界面还是做得不错滴，下面请看图然后进入点击右下角的小齿轮图标，进入设置然后选择IPv4，进行设置，填写虚拟机的IP地址，以及子网掩码和DNS

2017-10-26 18:25:31 3643 2