- 博客(3)
- 收藏
- 关注
原创 rdd 与dataframe互操作的两种方式
测试数据样本形式:1 上海 2732 云南 273 内蒙古 254 北京 6271编程row的方式,适合事先不知道列的形式 def main(args: Array[String]) { val spark = SparkSession.builder().appName("DataFrameAPP").master("local[2]").getOrCreate() ...
2018-05-25 16:12:10 327
原创 sparkSql 中,beeline 连接thriftserver 来操作表中的数据
beeline:客户端,负责与thriftserver连接thriftserver :服务端,负责允许远程客户端使用多种编程语言如Java、Python向Hive提交请求,取回结果。 使用jdbc协议连接hive的thriftserver服务器。正常的hive仅允许使用HiveQL执行查询、更新等操作,并且该方式比较笨拙单一。幸好Hive提供了轻客户端的实现,通过HiveServer或者HiveS...
2018-05-24 18:47:39 2019
原创 idea 本地调试虚拟机中的hadoop2.6.0-cdh5.7.0项目
涉及的软件或文件如下:1.idea maven2.hadoop.dll,winutils.exe ,winutils.pdb 适配windows64位操作系统(重要)而且这三个是适合hadoop2.7版本的也适合于2.6版本 下载链接:点击打开链接3.关闭hdfs的权限在这个etc/hadoop下的hdfs-site.xml添加 (记得先关闭集群再重启) <pr...
2018-05-15 12:11:57 1219
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人