关闭

实战hadoop海量数据处理系列05 : 实现点击流日志的数据清洗模块

实战hadoop海量数据处理系列05 : 实现点击流日志的数据清洗模块之前已经实现结构化数据的清洗,下一步我们将实现半结构化(非结构化)数据的清洗。在阅读本文前,强烈建议阅读原书“实现点击流日志的数据清洗模块”章节。 本文的代码同步于github,相关地址如下: [github地址](https://github.com/titer1/Play_HadoopFelix)...
阅读(941) 评论(0)

实战hadoop海量数据处理系列04预热篇:窗函数row_number 从理论到实践

实战hadoop海量数据处理系列04预热篇:窗函数row_number 从理论到实践作者写第一版书的时候,,hive还没有官方支持row_number,需要使用UDF来实现额外的jar; 不过幸运的是,从hive 0.11过后,官方就加入这个函数,所以入门更容易啦。1 row_number定义结合情景分析row_number()over (partition by tran_idorder by...
阅读(298) 评论(0)

实战hadoop海量数据处理系列02 番外篇: 在linux上使用hql执行工具 | hive排错记录

实战hadoop海量数据处理系列02 番外篇: 在linux上使用hql执行工具 | hive排错记录本文假设读者已经按照范老师的书搭建好了eclipse环境,并且已经导入myBi文件夹下面的子工程。https://github.com/titer1/Play_HadoopFelix...
阅读(509) 评论(0)

实战hadoop海量数据处理系列03 :数据仓库的设计

#实战hadoop海量数据处理系列03 :数据仓库的设计 鉴于我们之前两章提前预热的开发环境,我们现在来讨论数据仓库的设计,其实本章应该放到一个正式的项目的前端,不过好事总会要来的,准备好数据仓库,我们就可以实地验证sqoop等程序的逻辑。Let's go! 本文的代码同步于https://github.com/titer1/Play_HadoopFelix...
阅读(1267) 评论(4)

实战hadoop海量数据处理系列02: hql执行工具

实战hadoop海量数据处理系列02: hql执行工具本文假设读者已经按照范老师的书搭建好了eclipse环境,并且已经导入myBi文件夹下面的子工程。在阅读本文前,强烈建议阅读原书“实现数据分析工具模块”章节。本文的代码同步于https://github.com/titer1/Play_HadoopFelix1 原理图 对比数据导入章节的结构图,你会发现本章原理类似,先解析xml,然后触发命令。...
阅读(412) 评论(0)

实战hadoop海量数据处理系列 01:数据导入篇

实战hadoop海量数据处理系列 01:数据导入篇本文假设读者已经按照范老师的书搭建好了eclipse环境,并且已经导入myBi文件夹下面的子工程。在阅读本文前,强烈建议阅读原书“实现数据导入导出模块”章节。...
阅读(464) 评论(0)

实战hadoop海量数据处理系列:序

#实战hadoop海量数据处理系列:序 先讲述我我和范老师书的缘分, 第二是对代码的思考, 第三是自己的进度, 第四是对进度进行展望。...
阅读(454) 评论(2)

think in java 浅谈 SerialNumberChecker+ SimpleMicroBenchmark+SynchronizationComparisons

think in java 浅谈 SerialNumberChecker+ SimpleMicroBenchmark+SynchronizationComparisons11 SerialNumberChecker...
阅读(189) 评论(0)

重载(overload),覆盖(override),隐藏(hide)的区别

重载 重写 隐藏 overwrite overload hide...
阅读(155) 评论(0)

C++中多线程与Singleton的那些事儿

多线程安全 单例...
阅读(146) 评论(0)

单例模式(Singleton)及其C++实现

线程安全 单例...
阅读(154) 评论(0)

代码片段 mysql必知必会 存储过程 chapter 23

-- show tables; -- code demonstarte the learning of procedure -- example ch23.3.2 try to simple procedure delimiter // create procedure productpricing1() begin select avg(prod_price)as priceaverage...
阅读(220) 评论(0)

MapReduce 2.0应用场景、原理与基本架构 | mapreduce顺序图 + mapreduce动图

MapReduce基本原理  MapReduce编程模型  MapReduce架构  MapReduce任务调度器  MapReduce应用场景 mapreduce顺序图 + mapreduce动图...
阅读(251) 评论(0)

配置hive的坑 hive-site.xml:2787:3: The element type "configuration" must be terminated by the matching

hivehive-site.xml 2787...
阅读(535) 评论(0)

python 数据类书籍推荐

数据类书籍推荐 《Python科学计算》 我的科学计算类入门书籍。当年自己毕业论文涉及到数据处理的部分,都是用的在这本书里学到的东西。从发行版的安装开始,这本书将科学计算及可视化的常见函数库,如numpy、scipy、sympy、matplotlib、traits、tvtk、mayavi、opencv等等,都进行了较为详细地介绍。由于涉及面太广,可能对于单个函数库来说还不够深入,但是这本书能够...
阅读(520) 评论(0)
127条 共9页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:180052次
    • 积分:2812
    • 等级:
    • 排名:第12696名
    • 原创:100篇
    • 转载:26篇
    • 译文:1篇
    • 评论:26条
    博客专栏