- 博客(4)
- 资源 (8)
- 收藏
- 关注
原创 SparkSQL对hive数据源进行操作
SparkSQL提供了HiveContext类,它继承与SQLContext,因此不仅具有SQLContext的功能,而且还可以直接操作hive表中的数据,以及执行hive的sql语句。在上篇中,使用了json数据来表示表数据,然后后对表数据进行join操作,需要在javaRDD和DataFrame中转来转去,稍显繁琐。 本篇继续上一个问题,使用SaprkSQL对同样的两张表数据进行过滤并join
2015-11-20 09:06:32 1647
原创 Josephu程序
Josephu问题,设编号分别为:1, 2 , … . , n的n个人围坐一圈。约定序号为k(1≤k≤n)的人从1开始计数,数到m的那个人出列,他的下一位又从1开始计数,数到m的那个人又出列,依次类推,直到所有人出列位置。输出结果为:
2015-11-20 00:43:28 199
原创 使用SparkSQL的DataFrame对表数据进行过滤及多表关联操作
引言 DataFrame是spark 1.3版本之后引入的功能,大大扩展了SparkSQL的编程,借助于DataFrame,可以对不同的数据源进行操作,包括RDD,json,parque,jdbc,hive表等。 本篇有感于DataFrame的强大,对DataFrame的使用做一下笔记。假设有两个表数据,studentInfo表和studentScore表,表数据结构如下:现在需要过滤分数大于
2015-11-19 23:41:55 3636
原创 Learning storm笔记(一)
一、storm的特点快速:据称每秒钟可以处理100万条tuple水平扩展:可以在集群中通过添加节点来扩展处理能力容错性:当工作进程挂掉之后,可以迅速重新启动该工作进程,如果该进程的节点挂掉了,则在其他节点上启动工作进程。保证数据被处理:提供的保证措施,保证每条进入集群中的消息被处理易操作:storm部署和管理非常简单多语言编程:支持多种语言来编写storm应用程序
2015-08-17 19:36:05 84
Packt Apache Spark Deep Learning Cookbook
2018-07-25
飞雪桌面日历注册码适合V5.0及以下版本
2011-01-03
51单片机C语言超级经典
2009-08-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人