大数据
文章平均质量分 59
JasonTome
class Welcome To Myblog { public static void main(String[] args){ System.out.println(" I can changed the lives of others through technology and hard work!");}
展开
-
storm简介
场景伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝要等到第二天或者更久才可以被搜出来,估计这个大哥就要骂娘了。再举一个推荐的例子,如果用户昨天在淘宝上买了一双袜子,今天想买一转载 2013-06-23 21:28:00 · 631 阅读 · 0 评论 -
大数据处理点滴笔记
自我头脑风暴,说得对与错都请指点,后续补充。 当下三大技术热点:高并发、分布式、大数据(也许,还有很多,这只是自我修炼的三个目标)。大数据处理系统有几点要求:低延迟高性能分布式可扩展(更多的要求是可横向扩展)容错现在用的比较多的就是Hadoop、Storm。 Hadoop依赖于HDFS磁盘延时较高(可精确到小时)统计结果存在HBase转载 2013-06-23 21:24:31 · 553 阅读 · 0 评论 -
scala案例学习之Currying柯里化
【写在前面】 由于之前工作的一些特殊情况,加上在比较多使用知识管理软件(为知/有道云笔记等)后,就越来越少写博客,但在生活工作却总感觉缺少了点东西,蓦然回首发现原来是“丢失了”"学习写作"的修炼心。故有必要重新治理一下博客,以rscala.com记录、分享自己在IT技术自我修炼与窥探历程。一、初识Currying柯里化 柯里化(Currying)技术 Ch转载 2016-08-29 22:26:52 · 1708 阅读 · 0 评论 -
Spark学习资源整合(持续更新)
一、为什么学习Spark 大数据技术快速发展,Spark为Hadoop大数据技术生态体系带了新的活力与技术革新。至于为什么学习Spark,这样的问题真的是一千个人心中有一千个哈姆雷特。Spark的官网告诉我们:Apache Spark™ is a fast and general engine for large-scale data processing.而其独特魅力已经在疯狂地影转载 2016-08-29 22:34:40 · 1074 阅读 · 0 评论 -
Spark Core核心编程之广播变量剖析
本文转自AiTi修炼|大数据技术窥探记录一些个人学习Scala,Spark,Hadoop,Storm,Nodejs,RSpark,Storm,Hbase,Hive,Flume等IT技术的历程如果深入思考spark的分布式集群工作过程,就会发现有一些问题是分布式多节点需要考虑解决的。如一些变量在集群节点之间的拷贝。如我们在应用程序中编写代码,实际运行时候是将相关的代码转载 2016-10-12 14:43:14 · 674 阅读 · 0 评论 -
scala如何连接和操作mysql/oracle/sqlserver数据库
【问题场景】 在scala中怎么连接mysql/oracle/sqlserver数据库,进行数据库操作。* 【解决思路】 了解scala的强大特性我们会发现java中的东西,scala基本可以拿来使用,那么要解决scala连接数据库的问题,自然是可以通过java最经典的JDBC方式来解决,当然了现在针对scala操作数据库的,已经有涌现出了很多封装框架如ScalaQuery转载 2017-04-27 13:24:56 · 3879 阅读 · 0 评论 -
spark学习之combineByKey函数
在数据分析中,处理Key,V alue的Pair数据是极为常见的场景,例如我们可以针对这样的数据进行分组、聚合或者将两个包含Pair数据的RDD根据key进行join。从函数的抽象层面看,这些操作具有共同的特征,都是将类型为RDD[(K,V)]的数据处理为RDD[(K,C)]。这里的V和C可以是相同类型,也可以是不同类型。这种数据处理操作并非单纯的对Pair的value进行map,而是针对不同的k转载 2017-04-27 13:29:58 · 900 阅读 · 0 评论