自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 PySpark的学习

使用过的bin/pyspark程序要注意这个只是一个应用程序提供一个Python解释器执行环境来运行Spark任务现在说的PySpark,指的是Python的运行类库是可以在Python代码中:import pyspark PySpark 是Spark官方提供的一个Python类库内置了完全的Spark API,可以通过PySpark类库来编写Spark应用程序,并将其提交到Spark集群中运行. 下图是,PySpark类库和标准。

2024-03-31 17:18:20 944 1

原创 Spark学习

1.相当于一个线程池,运行JVM Process,其中有很多线程,每个线程运行一个Task任务,一个Task任务运行需要1 Core CPU,所有可以认为Executor中线程数就等于CPU Core核数;不同于前面本地模式启动多个进程来模拟集群的环境,Standalone模式是真实地在多个机器之间搭建Spark集群的环境,完全可以利用该模式搭建多机器集群,用于实际的大数据处理。某任务执行者:Executor角色:单个任务运行时的时候的工作者,相当于YARN容器运行的TASK,具体工作的进程。

2024-03-30 18:59:51 786 1

原创 关于数仓学习中的一些认知

一,数仓基础 首先,数仓主要是用于存储过去既定发生的历史数据, 对这些数据进行数据分析的操作, 从而对未来提供决策支持。最大的优点是:既不生产数据, 也不消耗数据, 数据来源于各个数据源维度建模

2024-03-25 10:33:10 917

原创 一个简单的实操案例

问题2:需求中,需要统计每天、每个小时的消息量,但是数据中没有天和小时字段,只有整体时间字段,不好处理。问题3:需求中,需要对经度和维度构建地区的可视化地图,但是数据中GPS经纬度为一个字段,不好处理。统计今日总消息量 统计今日每小时消息量、发送和接收用户数。问题1:当前数据中,有一些数据的字段为空,不是合法数据。指标5:统计接收消息条数最多的Top10用户。指标2:统计每小时消息量、发送和接收用户数。统计今日发送消息最多的Top10用户。统计今日发送消息和接收消息的用户数。统计今日各地区发送消息数据量。

2024-03-14 18:57:49 531 1

原创 有关Hive对数据库的常见操作(三)

SELECT * FROM itheima.orders WHERE useraddress RLIKE '..省 ..市 ..区';SELECT * FROM itheima.orders WHERE username RLIKE '[张王邓]\\S+';SELECT * FROM itheima.orders WHERE useraddress RLIKE '.*广东.*';SELECT * FROM itheima.orders WHERE useraddress LIKE '%广东%';

2024-03-13 20:09:25 880

原创 有关Hive对数据库的常见操作(二)

分桶和分区一样,也是一种通过改变表的存储模式,从而完成对表优化的一种调优方式 但和分区不同,分区是将表拆分到不同的子文件夹中进行存储,而分桶是将表拆分到固定数量的不同文件中进行存储。需要map字段之间的分隔符:"#";struct类型是一个复合类型,可以在一个列中存入多个子列,每个子列允许设置类型和名称 有如下数据文件,说明:字段之间#分割,struct之间冒号分割。桶表的数据加载,由于桶表的数据加载通过load data无法执行,只能通过insert select. 所以,比较好的方式是。

2024-03-12 21:05:58 1977 1

原创 有关Hive对数据库的常见操作(一)

在hive文件夹中(/export/server/hive)输入bin/beeline,再输入!nohup bin/hive --service hiveserver2 >> logs/hiveserver2.log 2>&1 &要注意:('EXTERNAL'='FALSE') 或 ('EXTERNAL'='TRUE')为固定写法,区分大小写!外部表必须确认创建的位置,创建外部表的方法可以是先有数据,再有表,也可以先有表再有数据,两者在被删除后元数据均存在。(2)将查询的结果导出到本地 - 指定列分隔符。

2024-03-11 21:21:40 2107

原创 Hive学习

INSERT INTO test VALUES(1, ‘peter’, ‘boy’), (2, ‘周杰伦’, ‘男’),(3,'林之林','女');Beeline是JDBC的客户端,通过JDBC协议和Hiveserver2服务进行通信,协议的地址是:jdbc:hive2://node1:10000。在hive安装的服务器上,首先启动metastore服务,然后启动hiveserver2服务。出现0: jdbc:hive2://node1:10000>,即可对数据库进行操作。

2024-03-08 19:18:34 353 1

原创 提交MapReduce程序至YARN运行

运行内置的示例MapReduce程序代码,都在: $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar这个文件内。可以通过 hadoop jar 命令来运行它,提交MapReduce程序到YARN中。语法:hadoop jar 程序文件 java类名 [程序参数] ... [程序参数]打开/export/server/hadoop/share/hadoop/mapreduce,找到一个名称叫做。

2024-03-08 10:27:44 378 1

原创 关于 Name node is in safe mode.问题的解决

我在站上查了一下,应该是由于我的hdfs刚刚启动,它处于一个安全模式,此时我们只需要把安全模式关掉,即可重新创建一个文件夹。因为我在Linux中创建一个文件夹时,出现了这个问题,此时出现下面结果即是把安全模式关闭。

2024-03-08 09:07:47 329 1

原创 关于MapReduce和YARN的认识

一键启动YARN集群: $HADOOP_HOME/sbin/start-yarn.sh会基于yarn-site.xml中配置的yarn.resourcemanager.hostname来决定在哪台机器上启动resourcemanager会基于workers文件配置的主机启动NodeManager 一键停止YARN集群: $HADOOP_HOME/sbin/stop-yarn.sh在当前机器,单独启动或停止进程。

2024-03-07 21:16:07 894

原创 关于HDFS存储相关的知识

dfs.namenode.checkpoint.period,默认3600(秒)即1小时 dfs.namenode.checkpoint.txns,默认1000000,即100W次事务。-files可以列出路径内的文件状态 -files -blocks 输出文件块报告(有几个块,多少副本)edits文件,是一个流水账文件,记录了hdfs中的每一次操作,以及本次操作影响的文件其对应的block。如当前已存在fsimage文件,将全部edits和已存在的fsimage进行合并,形成新的fsimage。

2024-03-07 16:51:15 351

原创 使用NFS网关功能将HDFS挂载到本地系统

这里192.168.88.1是你自己配置虚拟机的IP地址

2024-03-07 15:56:20 525

原创 HDFS常见命令练习(二)

按顺序执行以下操作1.在hdfs中创建文件夹:/itcast/test,如存在请删除(跳过回收站)2.上传/etc/hosts文件到hdfs的/itcast/test内3.查看hdfs中刚刚上传的文件内容4.向hdfs中上传的文件追加:test到最后一行5.下载hdfs中上传的文件到本地任意目录6.在hdfs中创建文件夹:/itcast/bigdata,将/itcast/test/hosts文件复制到/itcast/bigdata内。

2024-03-07 10:43:32 366

原创 HDFS集群的常见命令(一)

1.一键启停# 一键启动hdfs集群# 一键关闭hdfs集群2.单进程启停此脚本可以单独控制所在机器的进程的启停 用法:此程序也可以用以单独控制所在机器的进程的启停 用法:1.2.

2024-03-06 19:28:00 1796 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除