自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

学习 记录 总结 分享

学习 记录 总结 分享

  • 博客(19)
  • 资源 (1)
  • 收藏
  • 关注

原创 Hive - INSERT INTO vs INSERT OVERWRITE区别

Hive - INSERT INTO vs INSERT OVERWRITE区别两者的异同:insert into 与 insert overwrite 都可以向hive表中插入数据,但是insert into直接追加到表中数据的尾部,而insert overwrite会重写数据,既先进行删除,再写入。如果存在分区的情况,insert overwrite会只重写当前分区数据。在使用Hive时,我们经常遇到两种不同类型的insert HiveQL命令insert INTO和insert OVERW

2021-03-31 23:48:08 2839

转载 如何长时间高效学习?

作者:白诗诗https://www.zhihu.com/question/28358499/answer/73162464链接:https://www.zhihu.com/question/28358499/answer/73162464 来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。谢邀。此文虽长9000字整 ! 全手码,预计花费您10分钟左右才能阅读完,建议不跳读。值得收藏。这是知乎朋友的热情啊,一个小时之内,就看到了收藏是点赞的三倍!!!哈哈,为什么! !

2021-03-31 22:30:22 1562

转载 30岁做什么,可在5年后受益匪浅?

作者:史蒂文 链接:https://www.zhihu.com/question/52178718/answer/135219904来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。今年正好30岁,从反面回答一下吧,后悔自己25岁时没人告诉我的。1、25岁时,没人跟我说,知识或者技能这种东西,学到了就跟你一辈子,不管工作或时空跨度多大,新知和技能都能排上用场2、25岁时,有人跟我说,习惯很重要,但没人跟我说重要到深度影响自己生活、人生选择和生命质量的程度。因为几乎.

2021-03-31 22:22:34 151

转载 为什么领导不喜欢提拔老实人?

作者:技术官僚 链接:https://www.zhihu.com/question/433094550/answer/1677378654来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。说在前面,我的回答,只说最现实、最残酷、最无奈的事情,我是不会写童话故事的。不是不喜欢提拔,而是没法儿提拔。骨子里,领导需要提拔的,是一个“搞得定”的人。领导让你去做一件事,他自然清楚里面可能会遇到的困难。有些困难,他已经充分想好了应对的策略(希望你能照办);而有些,连他自己都没整明白.

2021-03-31 22:15:06 363

转载 如何不痛苦地早起?

痛苦?朋友,照着我下面说的做,哪有什么痛苦,只有爽!非常爽!我已经连续早起几个月了,每天在5:30左右醒来,当然如果我愿意,我可以在任何时间醒来,只是我觉得这个时间对我来说刚刚好。等你早起上瘾的那天,你会回来关注我的我观察到周围很多人都被起床所困扰,很多人的借口是一想到起床就要去上班/上学,就不想起床。这个借口乍一听是不想上班/上学,其实深层次的原因是拖延症,想把痛苦往后拖,拖进无底的深渊。傻孩子,你那么聪明,需要我来告诉你是在掩耳盗铃吗?要说时间,那可是最无情的东西啊!如果你认同自己应该更早的起床.

2021-03-31 22:07:19 287

转载 SparkSQL的内置函数与自定义函数【转载】

SparkSQL内置函数sparkSQL支持大量的常见函数,具体参考此文章https://www.iteblog.com/archives/2336.htmlSparkSQL的自定义函数(UDF)在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种:UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 •UDAF(User-Defined Aggregation Funcation),用户自定义聚合函数,类似在grou

2021-03-30 23:41:46 445

转载 PySpark︱DataFrame操作指南:增/删/改/查/合并/统计与数据处理

转自:https://blog.csdn.net/sinat_26917383/article/details/80500349DataFrame操作指南1、 查1.2 列元素操作1.3 排序1.4 抽样1.5 按条件筛选when / between2、 增、改2.1 新建数据2.2 新增数据列 withColumn2.3 过滤数据3、合并 join / union3.1 横向拼接rbind3.2 Join根据条件3.2 求并集、交集3.3 分割:行转列4 统计4.1 频数统计与筛选4.2 分组统计4.

2021-03-30 23:22:41 468

转载 Hive常见的数据错位及修复技巧【转载】

转自:https://zhuanlan.zhihu.com/p/348698298前言在进行大数据开发过程中,避免不了遇到数据错位的情况。出现数据错位的情况通常处于大数据开发的上游环节,为了保证数据质量需要对Hive表数据进行修复处理,本文由一次真实的Hive数据错位修复经历所启发,在这个基础上总结和扩展数据错位发生场景、数据错位修复思路和修复案例演示demo。01 发生数据错位的场景首先需要清楚以下2个概念:上游数据来源表为不同渠道的数据,如关系型数据库MySQL的数据、网站或应用的埋点数据.

2021-03-30 22:08:42 3580 1

原创 Spark入门

从官网http://spark.apache.org/开始学习吧

2021-03-24 07:41:30 198

转载 Dos命令大全【转载】

  打开"运行"对话框(Win+R),输入cmd,打开控制台命令窗口... 也可以通过cmd /c 命令 和 cmd /k 命令的方式来直接运行命令 注:/c表示执行完命令后关闭cmd窗口;/k表示执行完命令后保留cmd窗口 # 控制台命令窗口中一些技巧 复制内容:右键弹出快捷菜单,选择“标记(K)”,然后选中所需复制的内容,然后右键即可 粘贴内容:右键弹出快捷菜单,选择“...

2021-03-24 06:48:35 2691

转载 windows下常用的DOS命令行

1、如何进入dos界面windws系统进入dos界面,常见方法有两种:--------直接win+r,出现一个对话框,输入cmd,即可快速进入--------进入我的电脑后,无论你在哪个盘哪个文件,直接在上面路径框输入cmd即可进入在当前文件下dos界面。2、常见的路径切换命令直接利用上面方法进入的都是默认或指定的文件路径,当我们想切换路径时就需要用到cd命令,此时可以分两种情况:(1)同一个磁盘下直接在dos界面输入 cd 目标路径 即可。返回上一级路径 可以用命令 cd ..直接返

2021-03-23 22:40:13 1016

转载 python代码长度过长时候换行的几种方式

python代码如何换行字符串过长换行表达式换行字符串过长换行# 三个双引号, print(a) 出来的是两行a = """hello worldhello world"""# 三个单引号, print(b) 出来的是两行b = ''' hello worldhello world'''# 使用 \ , print(c)出来的是一行c = "hello " \ "world"表达式换行# 使用 \d = a+b\ +c# 使用括号d = (a + c)

2021-03-18 23:51:43 6873

原创 SparkSql官网

SparkSql-DML

2021-03-08 12:00:54 694

原创 svn更新出现乱码,请执行清理

进入隐藏文件夹.svn所在目录,执行svn cleanup命令,如果提示命令不存在,使用以下方法后重新输入命令就可以了。解决方法:windows安装svn的时候默认是不安装 svn command line这个东西的,重新打开svn的安装exe,选择modify,将“command line client tools”允许安装,然后next继续安装。————————————————版权声明:本文为CSDN博主「House李」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及

2021-03-02 14:34:43 2407

转载 ETL数据清洗工具总结

转自:https://www.cnblogs.com/yuyu666/p/10049912.htmlETL数据清洗工具总结【国外】datastage点评:最专业的ETL工具,价格不菲,使用难度一般下载地址:ftp://ftp.seu.edu.cn/Pub/Develop … taStage.v7.5.1A-iSOBT种子下载:http://pan.baidu.com/share/link?shareid=172289&uk=67437475-------------------.

2021-03-02 13:21:21 2199

转载 数据仓库建设步骤

1.系统分析,确定主题确定一下几个因素:·操作出现的频率,即业务部门每隔多长时间做一次查询分析。·在系统中需要保存多久的数据,是一年、两年还是五年、十年。·用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。·用户所能接受的响应时间是多长、是几秒钟,还是几小时。2.选择满足数据仓库系统要求的软件平台选择合适的软件平台,包括数据库、建模工具、分析工具等。有许多因素要考虑,如系统对数据量、响应时间、分析功能的要求等,以下是一些公认的选择标准:·厂商的背景和支持能力,能否提供全方位的技

2021-03-01 20:39:36 570

转载 Hive和数据库有什么区别

由于 Hive 采用了类似SQL 的查询语言 HQL(Hive Query Language),因此很容易将 Hive 理解为数据库。其实从结构上来看,Hive 和数据库除了拥有类似的查询语言,再无类似之处。本文将从多个方面来阐述 Hive 和数据库的差异。数据库可以用在 Online 的应用中,但是Hive 是为数据仓库而设计的,清楚这一点,有助于从应用角度理解 Hive 的特性。从以下七个方面进行比较:1.查询语言由于SQL被广泛的应用在数据仓库中,因此,专门针对Hive的特性设计了类SQL的查询

2021-03-01 20:18:21 3290

转载 HBase 和 Hive 的差别是什么,各自适用在什么场景中?

先放结论:Hbase和Hive在大数据架构中处在不同位置,Hbase主要解决实时数据查询问题,Hive主要解决数据处理和计算问题,一般是配合使用。一、区别:Hbase: Hadoop database 的简称,也就是基于Hadoop数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日志明细、交易清单、轨迹行为等。Hive:Hive是Hadoop数据仓库,严格来说,不是数据库,主要是让开发人员能够通过SQL来计算和处理HDFS上的结构化数据,适用于离线的批量数据计算

2021-03-01 20:13:39 170

转载 Hive

Hive 一 . hive1. 概述1.2. 组成架构(运行流程)1.3. 特点4. Hive和数据库的区别 二、Hive的搭建2.1. 版本的选择2.2. 步骤2.3. 软件的基本操作2.3.1. 进入hive2.3.2. 操作2.3.3. 退出2.3.4. hive...

2021-03-01 13:10:57 91

XFireDemo.zip

开发环境:JDK1.7+Eclipse+Tomcat7 使用XFire开发WebService的XFireDemo

2019-10-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除