![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 60
Ashley_JIANG
这个作者很懒,什么都没留下…
展开
-
spark调优
set spark.sql.caseSensitive=FALSE; 设置不区分大小写转载 2021-10-10 17:22:16 · 162 阅读 · 0 评论 -
面试题汇总
spark reduceByKey和groupByKey的区别 reduceByKey可以自定义函数,groupByKey不可以自定义函数 reduceByKey可以在shuffle之前将输出数据与一个共用的key结合,先在本地进行merge操作,减少了很多不必要的数据进行数据传输造成的IO reduceByKey更适合大数据上的操作2. spark和hadoop的区别3. hive中的mapjoin原理hive中join的方式有两种MapJoin和ReduceJoin.原创 2021-03-28 20:17:15 · 139 阅读 · 0 评论 -
kylin安装
1.kylin下载:https://mirrors.bfsu.edu.cn/apache/kylin/apache-kylin-3.1.1/apache-kylin-3.1.1-bin-cdh57.tar.gz2. 上传至你想要的文件夹中比如:ip: 172.16.1.91机器下的文件夹/usr/local/install/kylin/apache-kylin-4.0.0-beta-bin.tar.gz3. 解压(选择合适的解压缩方式)tar -zxvf apach...原创 2021-03-28 20:16:08 · 1466 阅读 · 1 评论 -
spark SQL知识点整合
1. dataframe和rdd的区别可以将dataframe理解成是RDD+schema元信息两个分别的优点和缺点:2. dataset的优点3.dataframe,dataset,和RDD的区别4. 之间的相互转化:5.堆外内存和堆内内存的定义和区别,各自的优势堆外操作系统的IO, 堆内内存建立再JVM上(会长生GC)6,spark on hive和hive on spark的区别7. hive和spark的整合8.thrith server ?????原创 2021-03-28 20:15:16 · 102 阅读 · 0 评论 -
hive表新增字段或者修改字段
1. hive表操作1. 修改表字段的数据类型或者修改表字段名字#如果表是外部表,需要先修改为内部表alter table 数据库名.表名set tblproperties('EXTERNAL' = 'FALSE');ALTER TABLE 数据库名.表名 CHANGE COLUMN 字段名 新的字段名(如果不变就保持原字段) 字段类型(若不变就采用原来的字段) COMMENT '新的字段备注';alter table 数据库名.表名set tblproperties('EXTERNAL原创 2020-12-09 15:52:27 · 26493 阅读 · 1 评论 -
spark dataframe坑点总结
1. joinxxxxx1 202009 x1 a1 null 5 null xxxxx2 202009 x2 a2 null null null xxxxx3 202009 x3 a3 null null 5 三条数据分别三个Dataframe中,join之后,发现数据并没有合并成一条,是以三条的形式显示的。将空值进行填充,问题解决。当是null的时候,会被认为不是相同的值。..原创 2020-11-19 21:10:17 · 239 阅读 · 0 评论 -
spark Dataframe数据处理常用方法总结
以下方法使用scala, df类型为Dataframe1. 新增一列df = df.withColumn("new col", lit(null)), //新的一列名字为"new col", 使用空值进行填充2. 列名重新命名df = df.withColumnRenamed("旧列名", "新列名")3. 根据条件进行判断来对Dataframe中某列的值进行填充df = df.withColumn("需要进行填充的列名", when(条件判断, $"用于填充的列名") ..原创 2020-06-23 17:50:23 · 1821 阅读 · 0 评论 -
大数据分析学习之路——Hive
大数据,hadoop,hive,概念什么是大数据? 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。换句话数据量在TB,PB,甚至更大的多元化数据集合。多,杂的数据当今数据处理模式:离线处理(先收集数据,再处理)----Hadoop;流式处理(实时处理)---sparkHadoop1,The Apache Hadoop project d原创 2017-11-26 10:48:02 · 1137 阅读 · 0 评论 -
大数据分析学习之路—安装数据分析常用库
numpy, pandas,scipy,sklearn库一般安装,pip install 库名注意:1, 我在用pip install numpy 装完之后,import numpy时, 报错:ImportError: cannot import name 'NUMPY_MKL'在网站:https://www.lfd.uci.edu/~gohlke/python原创 2017-11-30 16:48:19 · 427 阅读 · 0 评论