- 博客(10)
- 资源 (16)
- 收藏
- 关注
原创 hive修改表和字段注释
修改表:ALTER TABLE table_name SET TBLPROPERTIES('COMMENT' = '这是表注释!');修改字段:ALTER TABLE table_name CHANGE COLUMN muid muid_new STRING COMMENT '这里是列注释!';
2017-08-31 17:24:12 23687 1
转载 map和reduce数量控制
Hadoop在运行一个mapreduce job之前,需要估算这个job的maptask数和reducetask数。首先分析一下job的maptask数当一个job提交时,jobclient首先分析job被拆分的split数量,然后吧job.split文件放置在HDFS中,一个job的MapTask数量就等于split的个数。job.split中包含sp
2017-08-31 11:45:14 7172
转载 synchronized 与 Lock 区别联系
最近在做一个监控系统,该系统主要包括对数据实时分析和存储两个部分,由于并发量比较高,所以不可避免的使用到了一些并发的知识。为了实现这些要求,后台使用一个队列作为缓存,对于请求只管往缓存里写数据。同时启动一个线程监听该队列,检测到数据,立即请求调度线程,对数据进行处理。 具体的使用方案就是使用同步保证数据的正常,使用线程池提高效率。 同步的实现当然是采用锁了,java中使用锁的两个基
2017-08-26 14:15:35 6081
原创 jetty内嵌web页面服务入门
前面说过jetty最广泛的应用是可以方便的嵌入到应用程序中,而不是作为应用服务器,下面就用最简单的demo来演示一个最简单的应用 1、下载并导入依赖 首先应该建立一个普通的java项目,然后把依赖包导进去 关于依赖包的获取,第一种方式是将前面下载的jetty服务器中lib目录中的jar包导入即可 另外是在jetty下载页面上,上面是jetty服务器的下载链接
2017-08-24 14:57:35 9363
转载 hive优化 全局排序 join 笛卡尔积 exist in reduce数量 合并mapreduce
使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是某些情况下,因为不熟悉数据特性,或没有遵循hive的优化约定,Hive计算任务会变得非常低效,甚至无法得到结果。一个”好”的Hive程序仍然需要对Hive运行机制有深入的了解。有一些大家比较熟悉的优化约定包括:Join中需要将大表写在靠右的位置;尽量使用UDF而不是transfrom……诸如此类。下面讨论5个性能和逻辑相关
2017-08-19 17:00:00 12573
转载 hive on tez详细配置和运行测试
hive on tez详细配置和运行测试标签(空格分隔): tez Hadoop Hive hdfs yarn环境: hadoop-2.5.2 hive-0.14 tez-0.5.3 hive on tez 的方式有两种安装配置方式:在hadoop中配置在hive中配置比较: 第二种方式:当已经有了稳定的hadoop集群,而不想动这个集群时,可以
2017-08-16 22:07:03 10012 1
转载 hive desc table乱码问题
环境 cdh5.8.3 + Hive 1.1.0。 hive 元数据库用的是MySQL创建表后,用desc 在hive中查看表信息,注释显示乱码。解决方案如下:1 进入mysql ,执行show create database hive 11查看hive 数据库当前编码,如果是utf8 则执行下面sqlalter database hive default chara
2017-08-15 21:09:27 7440
转载 Azkaban入门篇
Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。在介绍Azkaban之前,我们先来看一下现有的两个工作流任务调度系统。知名度比较高的应该是Apache Oozie,但是其配置工作流的过程是编写大量的X
2017-08-11 10:16:11 8370
转载 LinkedIn开源Dr. Elephant:Hadoop和Spark性能监控工具
我们今天很荣幸的宣布项目Dr.Elephant的开源,这是一个强大的工具,可以帮助Hadoop和Spark用户理解、分析、以及改善系统的性能。在去年的Hadoop第八次年度峰会(一个Apache Hadoop社区的重要会议)期间,我们第一次将Dr. Elephant在社区面前展示。我们的动机Hadoop是用于大型分布式存储及计算的框架,同时其生态圈中引入了大量彼此相互作用的部件。由
2017-08-09 10:32:07 6620
转载 Ambari——大数据平台的搭建利器
Ambari 是什么Ambari 跟 Hadoop 等开源软件一样,也是 Apache Software Foundation 中的一个项目,并且是顶级项目。目前最新的发布版本是 2.0.1,未来不久将发布 2.1 版本。就 Ambari 的作用来说,就是创建、管理、监视 Hadoop 的集群,但是这里的 Hadoop 是广义,指的是 Hadoop 整个生态圈(例如 Hive,Hbase,
2017-08-03 12:27:07 6162
SonarLint-3.5-for-intellj-idea-亲测好使.zip
2019-08-09
C#语言c/结构酒店管理系统_幽灵工作室提供
2013-05-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人