大数据
Phyllis2016
这个作者很懒,什么都没留下…
展开
-
好的编程规范
编程规范原创 2023-03-25 15:31:03 · 66 阅读 · 0 评论 -
大数据基础三:spark常用算子
spark 算子原创 2022-06-30 23:42:27 · 757 阅读 · 0 评论 -
Linux常用命令
Linux常用命令原创 2022-06-15 10:21:15 · 71 阅读 · 0 评论 -
大数据基础二:spark原理和常见错误
一、spark原理参考:Hive on Spark调优_窗外的屋檐-CSDN博客_spark.executor.instancesSpark资源参数调优参数_TURING.DT-CSDN博客_spark 资源参数1、Job——对应action算子:包含很多task的并行计算,可以认为是Spark RDD 里面的action,每个action的计算会生成一个job。用户提交的Job会提交给DAGScheduler,Job会被分解成Stage和Task。2、Stage——对应Shuffl原创 2021-12-09 11:35:27 · 3247 阅读 · 0 评论 -
pyspark dataframe & pandas dataframe
pyspark创建的dataframe和普通pandasdataframe有很多容易使用上容易混淆的地方,特来梳理记录下。一、pandasdataframe特有的用法data1.show(行数) 展示表结构和数据二、pysparkdataframe特有的用法1、新增一列分配唯一切递增的iddf.withColumn('new_id',fn.monotonically_increasing_id()).show()三、两者相同用法的1、describe()2、head...原创 2021-12-07 20:22:54 · 2376 阅读 · 0 评论 -
各种环境配置
1、shell文件指定python路径#!/bin/shexport PATH=/usr/local/anaconda3/bin:$PATHsource activate basesource ~/.bashrc2、python文件,pyspark执行python路径import osos.environ['PYSPARK_PYTHON'] = '/usr/local/anaconda3/bin/python3.6'原创 2021-11-26 18:36:20 · 91 阅读 · 0 评论 -
大数据基础一:大数据组件
一、单机、集群、分布式1、单机一个系统业务量很小的时候所有的代码都放在一个项目中就好了,然后这个项目部署在一台服务器上就好了。整个项目所有的服务都由这台服务器提供。这就是单机结构。2、集群单机处理到达瓶颈的时候,你就把单机复制几份,这样就构成了一个“集群”。集群中每台服务器就叫做这个集群的一个“节点”,所有节点构成了一个集群。每个节点都提供相同的服务,那么这样系统的处理能力就相当于提升了好几倍(有几个节点就相当于提升了这么多倍)。3、分布式(微服务)分布式结构就是将一个完整的系统,按原创 2021-11-01 10:16:01 · 2138 阅读 · 0 评论 -
Hive SQL基本操作
添加分区ALTER TABLE table_name ADD PARTITION (dt = '2020-08-08') LOCATION '/user/hadoop/warehouse/table_name/dt=2020-08-08';一次添加多个分区ALTER TABLE table_name ADD PARTITION (dt = '2020-08-08') LOCATION '/user/hadoop/warehouse/table_name/dt=2020-08-08' PART原创 2021-10-22 20:28:01 · 1309 阅读 · 0 评论