wangfutai91
码龄7年
关注
提问 私信
  • 博客:150,655
    150,655
    总访问量
  • 88
    原创
  • 1,139,384
    排名
  • 9
    粉丝
  • 0
    铁粉

个人简介:钩深索隐,卓荦为杰。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2018-02-09
博客简介:

suojie的博客

博客描述:
学习/总结/思考
查看详细资料
个人成就
  • 获得47次点赞
  • 内容获得14次评论
  • 获得156次收藏
创作历程
  • 2篇
    2020年
  • 112篇
    2019年
  • 15篇
    2018年
成就勋章
TA的专栏
  • 面试
  • idea
    1篇
  • 数据库
    24篇
  • Python
    1篇
  • Java
    14篇
  • Linux
    4篇
  • 大数据
    25篇
  • hive
    25篇
  • hbase
    17篇
  • flume
    11篇
  • Scala
    11篇
  • numpy
    2篇
  • pandas
    2篇
  • DataFrame
    5篇
  • spark
    9篇
  • SparkStreaming
    8篇
  • kafka
    1篇
  • 数据仓库
    1篇
  • sqoop
    1篇
  • sparksql
    2篇
兴趣领域 设置
  • 大数据
    hadoophivesparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

IntelliJ IDEA安装scala插件并创建scala示例

转载:https://www.cnblogs.com/zhaojinyan/p/9524296.html具体步骤如下:1、找到与IntelliJ IDEA对应的scala版本如图,在File下找到Settings在弹出的对话框中点击Plugins,然后点击Install JetBrains plugin在搜索框中输入scala,点击scala,在对话框右边出现该Intelli...
转载
发布博客 2020.03.08 ·
282 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

01-JAN-20转化为日期格式

SELECT TO_CHAR(TO_TIMESTAMP('01-JAN-20','dd-mon-yy','NLS_DATE_LANGUAGE = American'),'yyyy-mm-dd HH24:MI:SS')FROM DUAL;...
原创
发布博客 2020.02.04 ·
3557 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

JDBCUtils工具类

package com.oracleoaec.utils;import java.sql.Connection;import java.sql.SQLException;import javax.sql.DataSource;import org.apache.commons.dbutils.QueryRunner;import com.mchange.v2.c3p0.Combo...
原创
发布博客 2019.05.10 ·
365 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

sparkSQL实战详解

1、sparkSQL层级 当我们想用sparkSQL来解决我们的需求时,其实说简单也简单,就经历了三步:读入数据 -> 对数据进行处理 -> 写入最后结果,那么这三个步骤用的主要类其实就三个:读入数据和写入最后结果用到两个类HiveContext和SQLContext,对数据进行处理用到的是DataFrame类,此类是你把数据从外部读入到内存后,数据在内存中进行存储的基本...
转载
发布博客 2019.05.10 ·
322 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

行转列2

原数据目标数据:---方法一select t.name, sum(decode(t.sub, '语文',score, 0)) as "语文", sum(decode(t.sub, '数学',score, 0)) as "数学", sum(decode(t.sub, '英语',score, 0)) as "英文" from pr...
原创
发布博客 2019.05.10 ·
161 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

oracle 行转列

原来的数据是:期望的数据是:sql语句:insert into emp (EMPNO, ENAME, JOB, MGR, HIREDATE, SAL, COMM, DEPTNO)values ('7369', 'SMITH', 'CLERK', '7902', '12/17/1980', '800', null, '20');insert into emp (E...
原创
发布博客 2019.05.10 ·
2571 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Linux下查看某个进程占用的CPU、内存

1、用top命令指定固定的PIDtop -p 10997查询指定进程的PIDps -ef | grep zookeeperjim 10997 1959 0 12月14 pts/2 00:00:01 /usr/lib/jvm/java-8-oracle/bin/java -Dzookeeper.log.dir=. -Dzookeeper.root.logge...
原创
发布博客 2019.04.04 ·
1648 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

Linux shell之提取文件名和目录名

用于字符串的读取,提取和替换功能,可以使用用于字符串的读取,提取和替换功能,可以使用{} 提取字符串1、提取文件名[root@localhost log]# var=/dir1/dir2/file.txt[root@localhost log]# echo ${var##*/}file.txt2、提取后缀[root@localhost log]# echo ${var...
转载
发布博客 2019.04.04 ·
2339 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

Spark Sql 性能调优

对于某些工作负载,可以通过在内存中缓存数据或打开一些实验选项来提高性能。在内存中缓存数据Spark SQL可以通过调用spark.catalog.cacheTable(“tableName”)或使用内存中的列式格式来缓存表.dataFrame.cache()。然后,Spark SQL将仅扫描所需的列,并自动调整压缩以最小化内存使用和GC压力。可以调用spark.catalog.uncach...
转载
发布博客 2019.03.24 ·
395 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SparkSQL常用性能优化

一、代码优化1.在数据统计的时候选择高性能算子。例如Dataframe使用foreachPartitions将数据写入数据库,不要每个record都去拿一次数据库连接。通常写法是每个partition拿一次数据库连接。 /** * 将统计结果写入MySQL中 * 代码优化: * 在进行数据库操作的时候,不要每个record都去操...
转载
发布博客 2019.03.24 ·
1064 阅读 ·
0 点赞 ·
2 评论 ·
2 收藏

Hive中跑MapReduce Job出现OOM问题分析及解决

一、引子今天在跑一段很复杂而且涉及数据量10多年的N个表join的长SQL时,发生了OOM的异常。由于一个map通常配置只有64MB或者128MB,则在Map阶段出现OOM的情况很少见。所以一般发生在reduce阶段。但是今天这个异常详细的看后,会发现既不是map阶段,也不是reduce阶段,发现不是执行过程,而是driver提交job阶段就OOM了。Hive中XMLEncoder...
转载
发布博客 2019.03.23 ·
2971 阅读 ·
3 点赞 ·
0 评论 ·
3 收藏

hive中UDF、UDAF和UDTF使用

Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:a)文件格式:Text File,Sequence Fileb)内存中的数据格式: Java Integer/Strin...
转载
发布博客 2019.03.23 ·
483 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

spark面试问题收集

spark面试问题1、spark中的RDD是什么,有哪些特性RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。 Dataset:就是一个集合,用于存放数据的 Distributed:分布式,可以并行在集群计算 Resilient:表示弹性的 弹性表示...
转载
发布博客 2019.03.23 ·
231 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Hadoop分块与分片介绍及分片和分块大小相同的原因

概念介绍分块在HDFS系统中,为了便于文件的管理和备份,引入分块概念(block)。这里的块是HDFS存储系统当中的最小单位,HDFS默认定义一个块的大小为64MB。当有文件上传到HDFS上时,若文件大小大于设置的块大小,则该文件会被切分存储为多个块,多个块可以存放在不同的DataNode上,整个过程中HDFS系统会保证一个块存储在一个datanode上。但值得注意的是如果某文件...
原创
发布博客 2019.03.23 ·
574 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Hadoop之分块、分片与shuffle机制详解

一 分块(Block)HDFS存储系统中,引入了文件系统的分块概念(block),块是存储的最小单位,HDFS定义其大小为64MB。与单磁盘文件系统相似,存储在 HDFS上的文件均存储为多个块,不同的是,如果某文件大小没有到达64MB,该文件也不会占据整个块空间。在分布式的HDFS集群上,Hadoop系统保证一个块存储在一个datanode上。把File划分成B...
转载
发布博客 2019.03.23 ·
445 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive分区、分桶操作及其区别

1,Hive分区。 是指按照数据表的某列或某些列分为多个区,区从形式上可以理解为文件夹,比如我们要收集某个大型网站的日志数据,一个网站每天的日志数据存在同一张表上,由于每天会生成大量的日志,导致数据表的内容巨大,在查询时进行全表扫描耗费的资源非常多。那其实这个情况下,我们可以按照日期对数据表进行分区,不同日期的数据存放在不同的分区,在查询时只要指定分区字段的值就可以直接从该分区查找。...
转载
发布博客 2019.03.23 ·
743 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hadoop中各组件的作用

Hadoop=HDFS+Yarn+MapReduce+Hbase+Hive+Pig+…1.HDFS:分布式文件系统,隐藏集群细节,可以看做一块儿超大硬盘主:namenode,secondarynamenode从:datanode2.Yarn:分布式资源管理系统,用于同一管理集群中的资源(内存等)主:Resourc...
转载
发布博客 2019.03.23 ·
3361 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

Hadoop 2.0工作原理学习

1 HDFS简介1.1 Hadoop 2.0介绍Hadoop是Apache的一个分布式系统基础架构,可以为海量数据提供存储和计算。Hadoop 2.0即第二代Hadoop系统,其框架最核心的设计是HDFS、MapReduce和YARN。其中,HDFS为海量数据提供存储,MapReduce用于分布式计算,YARN用于进行资源管理。Hadoop 1.0和Hadoop 2.0的结构对比:...
转载
发布博客 2019.03.23 ·
253 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hadoop生态圈技术概述

本文对hadoop生态圈技术做一个概要的介绍,文章中的前半部分的信息大多来自于网络,这里只是按照自己的学习思路整理了下。包括如下内容:hadoop诞生记 hadoop生态圈 常见组件简介 组件下载 学习路线一、hadoop诞生记最早Doug Cutting(后面被称为hadoop之父)领导创立了Apache的项目Lucene,然后Lucene又衍生出子项目Nutch,Nutch又...
转载
发布博客 2019.03.23 ·
4028 阅读 ·
3 点赞 ·
1 评论 ·
7 收藏

hive优化

1.介绍  首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总合并...
转载
发布博客 2019.03.23 ·
911 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多