自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 资源 (1)
  • 收藏
  • 关注

转载 hive常用函数

窗口函数与分析函数应用场景: (1)用于分区排序 (2)动态Group By (3)Top N (4)累计计算 (5)层次查询窗口函数FIRST_VALUE:取分组内排序后,截止到当前行,第一个值 LAST_VALUE: 取分组内排序后,截止到当前行,最后一个值 LEAD(col,n,DEFA...

2018-03-30 17:06:59 8064

转载 Kafka重复消费和丢失数据问题

Kafka重复消费原因底层根本原因:已经消费了数据,但是offset没提交。原因1:强行kill线程,导致消费后的数据,offset没有提交。原因2:设置offset为自动提交,关闭kafka时,如果在close之前,调用 consumer.unsubscribe() 则有可能部分offset没提交,下次重启会重...

2018-03-30 16:33:51 3191

转载 线程池原理

读完本文你将了解:什么是线程池线程池的处理流程保存待执行任务的阻塞队列创建自己的线程池JDK 提供的线程池及使用场景1.newFixedThreadPool2.newSingleThreadExecutor3.newCachedThreadPool4.newScheduledThreadP...

2018-03-30 10:51:33 112

转载 HA 模式下的 Hadoop+ZooKeeper+HBase 启动顺序

一. 背景1.1 网络上的大部分教程的顺序1.2 主机规划1.3 正确的启动顺序二. 首次启动/格式化集群三. 开启与关闭集群顺序3.1 Hadoop 生态系统集群的启动顺序概览3.2 非首次启动集群3.3 Hadoop 生态系统集群的关闭顺序概览3.4 集群关闭...

2018-03-30 10:22:30 1908 2

转载 CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...

2018-03-30 10:20:55 87

转载 在Yarn上运行spark-shell和spark-sql命令行

关键字:spark-shell on yarn、spark-sql on yarn前面的文章《Spark On Yarn:提交Spark应用程序到Yarn》介绍了将Spark应用程序提交到Yarn上运行。有时候在做开发测试的时候,需要使用spark-shell和spark-sql命令行,除了Local和Spark standalone模式,spark-shell和spa...

2018-03-27 18:01:21 14367

转载 MongoDB Connector for Hadoop(二)

I 问题II 解决方案1.导数据2.创建Hive表-Using BSON files - STORED AS (Specified SerDe, INPUT and OUTPUT)2.1建表语句语法:2.2 序列化和反序列化2.3 BSONSerDe Mappings-映射关...

2018-03-27 11:52:28 195

转载 MongoDB Connector for Hadoop(一)

1.MongoDB连接器2.MongoDB连接器 for Hive的两种用法3.Connecting to MongoDB - MongoStorageHandler3.1 安装3.2 Quickstart Example4.映射关系-Mappings4.1 映射字段和m...

2018-03-27 11:50:10 281

转载 MongoDB导入导出以及数据库备份

1、导出工具:mongoexport    1、概念:        mongoDB中的mongoexport工具可以把一个collection导出成JSON格式或CSV格式的文件。可以通过参数指定导出的数据项,也可以根据指定的条件导出数据。    2、语法:        mongoexport -d dbname -c collectionname -o file --type json/cs...

2018-03-27 11:46:32 198

转载 从MongoDB导入数据到HDFS方法3补充

公司以前的旧数据存放在服务器上面的MongoDB上,现在要使用这些数据进行大数据分析处理,那么就出现了MongoDB的数据导入到HDFS上的Hive数据表中的需求.现在写下该博客Mark一下!实现步骤1.下载jar文件:版本要求摘自https://github.com/mongodb/mongo-hadoop/wiki/Hive-Usage mongo-hadoop-core-2.0...

2018-03-27 11:34:00 1381

转载 从MongoDB导入数据到HDFS方法3

1.背景公司希望使用MongoDB作为后端业务数据库,使用Hadoop平台作为数据平台。最开始是先把数据从MongoDB导出来,然后传到HDFS,然后用Hive/MR处理。我感觉这也太麻烦了,现在不可能没有人想到这个问题,于是就搜了一下,结果真找到一个MongoDB Connector ...

2018-03-27 11:30:37 6415

转载 hadoop命令

start-all.sh 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrackstop-all.sh 停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTr...

2018-03-27 08:41:32 139

转载 从MongoDB导入数据到HDFS方法2

sqoop作为很常用的数据同步工具,用于RDBMS和HDFS的数据迁移,但是不支持NoSql,比如说MongoDB,那如果我们需要同步mongoDB的数据到hive该怎么处理呢?下面提供下我的思路:1.我先去查询了一下mongoDB可以导出数据为CSV格式或者json格式的文件,CSV是以逗号分隔的,这样可以直接把...

2018-03-27 08:39:57 2098

转载 大数据推荐系统实时架构和离线架构

生活中无论有什么闪失,统统是自己的错,与人无尤,从错处学习改过,精益求精,直至不犯同一错误,从不把过失推诿到他人肩膀上去,免得失去学乖的机会。——《阿修罗》 1、概述        推荐系统是...

2018-03-26 11:23:29 4590

转载 Java学习篇之—Eclipse中运行python程序

Java学习篇之—Eclipse中运行python程序本文主要介绍在Windows环境下,搭建能在Eclipse中运行python程序的环境:一、Eclipse 下载与安装:Eclipse是写JAVA的IDE,下载地址为:http://www.eclipse.org/downloads/下载完毕,解压就可以使用,这里不再详细介绍...

2018-03-26 11:19:53 5844

转载 从MongoDB导入数据到HDFS方法1

从MongoDB导入数据到HDFS本节将使用MongoInputFormat类加载MongoDB中的数据导入HDFS中。准备工作使用Mongo Hadoop适配器最简单的方法是从GitHub上克隆Mongo-Hadoop工程,并且将该工程编译到一个特定的Hadoop版本。克隆该工程需要安装一个Git客户端。本节假定你使用的Hadoop版本是CDH3。Git客户端官方的下载地址是:http://gi...

2018-03-26 11:14:19 3027

转载 eclipse mars 安装python 和 scala

http://download.csdn.net/detail/icaoweiwei/9410708http://download.csdn.net/detail/a646468568/9377692 <link rel="stylesheet" ...

2018-03-26 10:55:21 447

转载 转载方法

  对于喜欢逛CSDN的人来说,看别人的博客确实能够对自己有不小的提高,有时候看到特别好的博客想转载下载,但是不能一个字一个字的敲了,这时候我们就想快速转载别人的博客,把别人的博客移到自己的空间里面,当然有人会说我们可以收藏博客啊,就不需要转载,(⊙o⊙)… 也对。。实现  因为我自己当初想转载的时候却不知道该怎么...

2018-03-26 10:50:00 132

转载 程序员疲劳

程序员在其职业生涯中健康问题尤为突出,但是大部分程序员只顾码字,却往往忽略了自身的健康问题,这或许是因为写代码太入神,也或许是因为来自老板的压力太大。但这些并不是你折磨自己最好的理由,我们程序员也需要养生,只有懂得养生,才能更好地编程。程序员都有哪些健康问题这里我们罗列了 ...

2018-03-26 10:47:35 392

jdk-8u151-windows-x64.exe

java对应的版本,如果有个别同学需要指定的版本下载不方便可以联系

2019-05-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除