Mike_H
码龄11年
关注
提问 私信
  • 博客:161,595
    161,595
    总访问量
  • 70
    原创
  • 972,135
    排名
  • 31
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:香港
  • 加入CSDN时间: 2014-07-24
博客简介:

Mike han

博客描述:
我也不知道自己能走多远,只是一旦停下了,这辈子也就这么回事了
查看详细资料
个人成就
  • 获得5次点赞
  • 内容获得2次评论
  • 获得41次收藏
创作历程
  • 2篇
    2017年
  • 85篇
    2015年
  • 6篇
    2014年
成就勋章
TA的专栏
  • MCSE 导图
    6篇
  • MCSE 学习
  • SQL Server Showplane
  • SQL Server Index
  • Store Procedure
  • SQL Server Join
  • DMV/DMF
  • Linux
  • SSIS
  • Merkle--DMExpress
  • Data Serilizaton
    5篇
  • Avro
    15篇
  • Hive
    35篇
  • Pig
    18篇
  • Parquet
    16篇
  • MapReduce
    17篇
  • Hadoop
  • SQL 优化
  • Hadoop 优化
    12篇
  • HBase
    3篇
  • Sqoop
    2篇
  • Spark
    2篇
  • Flume
    2篇
  • Informatica
    2篇
  • Impala
    3篇
  • JSON
    1篇
  • MongoDB
  • Thrift
    1篇
  • Protobuff
    1篇
  • SequenceFile
    2篇
  • Kafka
    1篇
  • MySQL
    1篇
  • 搜索引擎
    2篇
  • SQL Functions
    5篇
  • JAVA
    2篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

备份 - web.xml 中spring-servlet.xml 和 application.xml 配置位置及含义

本文转载自:http://blog.csdn.net/tengdazhang770960436/article/details/48395885在我们进行 spring-servlet 进行开发的时候,经常会遇到配置文件配置的问题,要彻底的解决这个问题,我们需要了解 springMVC 设计的基本架构1.SpringMVC 的配置分为两部分 application.xml 和
转载
发布博客 2017.05.19 ·
605 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

备份 - spring配置文件详解

转自: http://book.51cto.com/art/201004/193743.htm    spring配置文件是用于指导Spring工厂进行Bean生产、依赖关系注入(装配)及Bean实例分发的"图纸"。Java EE程序员必须学会并灵活应用这份"图纸"准确地表达自己的"生产意图"。Spring配置文件是一个或多个标准的XML文档,applicationContext.xm
转载
发布博客 2017.05.19 ·
546 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

分析函数_PERCENT_RANK -- SQL Server 2012 & Hive

刚才已经介绍了 CUME_DIST 在 SQL Server 2012 (Hive)中的应用。因为在 Hive 中的语法跟 Server2012 中相同,所以我这里就不过多叙述 Hive 中使用的细节了。PERCENT_RANK() 函数会返回当前查询结果集和分区的一个相对值。如果你希望进一步了解该函数,可以参考:https://en.wikipedia.org/wiki/Percen
原创
发布博客 2015.12.12 ·
1515 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

分析函数_CUME_DIST -- SQL Server 2012 & Hive

最近在整理 Hie 分析函数资料的时候,看到了 CUME_DIST,百度后还是不知其意。于是乎用起了之前介绍的 Webcrawler 搜索引擎 :http://www.webcrawler.com/发现 SQL Server中也包含该分析函数。接下来让我们看看如何在 SQL Server 2012 中使用该分析函数,以帮助大家深入理解 CUME_DIST 函数在 Hive 中的使用。根据
原创
发布博客 2015.12.12 ·
1306 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Row_number & Rank & Dense_Rank

无论是传统数据库还是 Hadoop 数据仓库 Hive,我们都会涉及到窗口函数。今天利用 SQL Server 跟大家总结一下这Rank, Dense_rank, Row_number 三种函数的使用场景及区别:1. Rank() vs Dense_Rank()Rank() 会将数据进行排序。同一个分区下的对应的值从1开始递增,对于排序相同的字段拥有相同的排序值。不同的字段对应着自
原创
发布博客 2015.12.12 ·
707 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

图片搜索引擎 - WebCrawler

由于平时使用 Google 比较多,所有对 Google 的图片搜索印象特别深刻。但是说到关联度,个人想推荐一款比较好的搜索引擎,这是很久之前从 Github 上发现的。先分享出来,以后有时间再看看源码。https://github.com/Hanmourang/crawler4j介绍:WebCrawler是一款元搜索引擎,整合了 Google、Yahoo!、Bing Search
原创
发布博客 2015.12.12 ·
3875 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive 运算符 & 内置函数详解 -- 适合关键词查找

说实话,该博客排版太零乱,但是不影响关键词查找。转发过来以供以后参考:http://blog.sina.com.cn/s/blog_9f488855010179pt.html1.内置运算符1.1关系运算符运算符类型说明A = B所有原始类型如果A与B相等,返回TRUE,否则返回FALSEA ==
转载
发布博客 2015.12.10 ·
3090 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

Hive Projects_1. SQL Windowing & 分区表函数 -- 带完善

项目源码:https://github.com/hbutani/SQLWindowing项目介绍:https://github.com/hbutani/SQLWindowing/wikiPPT 介绍:http://www.slideshare.net/Hadoop_Summit/analytical-queries-with-hive目前正在研究该项目源码,会在后续进行更新,有
原创
发布博客 2015.12.10 ·
806 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive ACID 特性 -- 0.13.0

本文翻译于:https://cwiki.apache.org/confluence/display/Hive/Hive+Transactions        转载于:http://www.csdn.net/article/2014-04-23/2819438-Cloud-Hive需要提醒的是,当前Hive版本是 0.14.0。之所以要添加这篇文章,是为后续的文章做铺垫。摘要:Hive
翻译
发布博客 2015.12.10 ·
1019 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive配置文件中配置项的含义详解 -- 收藏版

本篇文章转自:http://www.aboutyun.com/thread-7548-1-1.htmlPreface:1.hive输出格式的配置项是哪个?2.hive被各种语言调用如何配置?3.hive提交作业是在hive中还是hadoop中?4.一个查询的最后一个map/reduce任务输出是否被压缩的标志,通过哪个配置项?5.当用户自定义了UDF或者SerDe,这些插件
转载
发布博客 2015.12.10 ·
1162 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

MapReduce性能优化_9. 数据序列化

本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.4.6 优化数据序列化如何存储和传输数据对性能有很大的影响。在这部分将介绍数据序列化的最佳实践,从Hadoop中榨出最大的性能。 压缩压缩是Hadoop优化的重要部分。通过压缩可以减少作业输出数据的储存足迹,加速MapReduce作业下游接收数据。另外,在map和
翻译
发布博客 2015.12.08 ·
654 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MapReduce性能优化_8. 优化MapReduce的用户JAVA代码

本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.4.5 优化MapReduce用户JAVA代码MapReduce执行代码的方式和普通JAVA应用不同。这是由于MapReduce框架为了能够高效地处理海量数据,需要成百万次调用map和reduce函数。每次调用仅用较少时间。那么就不能用普通的经验来预测常见库(含JDK)的性能表现。
翻译
发布博客 2015.12.08 ·
634 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MapReduce性能优化_7. 减小数据倾斜的性能损失

本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.4.4 减小数据倾斜的性能损失数据倾斜是数据中的常见情况。数据中不可避免地会出现异常值(outlier),并导致数据倾斜。这些异常值会显著地拖慢MapReduce的执行。常见的数据倾斜有以下几类:数据频率倾斜 -- 某一个区域的数据量要远远大于其他区域。数据大小倾斜 -- 部分记
翻译
发布博客 2015.12.08 ·
1149 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MapReduce性能优化_6. 优化 Shuffle & Sort 阶段

本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.4.3 优化洗牌(shuffle)和排序阶段技术46 规避使用reduce技术47 过滤和投影技术48 使用combine技术49 用Comparator进行超快排序洗牌和排序阶段都很耗费资源。洗牌需要在map和reduce任务之间传输数据
翻译
发布博客 2015.12.08 ·
659 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MapReduce性能优化_5. 诊断一般性能瓶颈

本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.2.5 硬件性能问题技术39 查找硬件的失效技术40 CPU竞争技术41 内存交换技术42 磁盘健康技术43 网络尽管单独的硬件的MTTF(平均失效前时间)都数以年记,然而在集群中就完全不是这么一回事了。整个集群的MTTF就要小得多。这一节要介绍如何确定CPU,内存,
翻译
发布博客 2015.12.08 ·
1005 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MapReduce性能优化_4. 诊断一般性能瓶颈

本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.2.4 任务一般性能问题技术37 作业竞争和调度器限制技术38 使用堆转存(stack dump)来查找未优化的用户代码这部分将介绍那些对map和reduce任务都有影响的性能问题。技术37 作业竞争和调度器限制即便map任务和re
翻译
发布博客 2015.12.08 ·
785 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MapReduce性能优化_3. 诊断 Reduce 端性能瓶颈

本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.2.3 Reduce的性能问题技术33 Reduce实例不足或过多技术34 诊断reduce段的数据倾斜的问题技术35 确定reduce任务是否存在整体吞吐量过低技术36 缓慢的洗牌(shuffle)和排序Reduce的性能问题有和map类似的方面,也有和map不同的
翻译
发布博客 2015.12.08 ·
1857 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

MapReduce性能优化_2. 诊断 Map 端性能瓶颈

本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.2 诊断性能瓶颈技术28 调查输入数据中的特别大的部分技术29 诊断map端的数据倾斜(data skew)技术30 诊断map任务的低吞吐量问题技术31 小文件技术32 不可分块的文件有的时候作业的执行时间会长得惊人。想靠猜也是很难猜对问题在哪。这一章中将介绍如何界定问
翻译
发布博客 2015.12.07 ·
873 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

MapReduce性能优化_1. 性能测量

本文翻译于 《Hadoop in Practice》, 摘抄自:大牛翻译系列性能调优的基础主要依赖于系统的性能指标和实验数据。依据这些指标和数据,才能找到系统的性能瓶颈。性能指标和实验数据要通过一系列的工具和过程才能得到。这部分里,将介绍Hadoop自带的工具和性能指标。还将捎带介绍性能监控工具。 1 抽取作业统计数据[job statistics]的工具这
翻译
发布博客 2015.12.07 ·
735 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Parquet_11. Spark: DataFrames 和 Parquet -- 待完善

具体内容将会在后续进行完善,敬请期待
原创
发布博客 2015.12.07 ·
498 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多