风从安城起-CSDN博客

原创 PySpark的学习

使用过的bin/pyspark程序要注意这个只是一个应用程序提供一个Python解释器执行环境来运行Spark任务现在说的PySpark,指的是Python的运行类库是可以在Python代码中:import pyspark PySpark 是Spark官方提供的一个Python类库内置了完全的Spark API,可以通过PySpark类库来编写Spark应用程序,并将其提交到Spark集群中运行. 下图是,PySpark类库和标准。

2024-03-31 17:18:20 944 1

原创 Spark学习

1.相当于一个线程池，运行JVM Process，其中有很多线程，每个线程运行一个Task任务，一个Task任务运行需要1 Core CPU，所有可以认为Executor中线程数就等于CPU Core核数；不同于前面本地模式启动多个进程来模拟集群的环境，Standalone模式是真实地在多个机器之间搭建Spark集群的环境，完全可以利用该模式搭建多机器集群，用于实际的大数据处理。某任务执行者：Executor角色：单个任务运行时的时候的工作者，相当于YARN容器运行的TASK，具体工作的进程。

2024-03-30 18:59:51 786 1

原创关于数仓学习中的一些认知

一，数仓基础首先，数仓主要是用于存储过去既定发生的历史数据, 对这些数据进行数据分析的操作, 从而对未来提供决策支持。最大的优点是：既不生产数据, 也不消耗数据, 数据来源于各个数据源维度建模

2024-03-25 10:33:10 917

原创一个简单的实操案例

问题2：需求中，需要统计每天、每个小时的消息量，但是数据中没有天和小时字段，只有整体时间字段，不好处理。问题3：需求中，需要对经度和维度构建地区的可视化地图，但是数据中GPS经纬度为一个字段，不好处理。统计今日总消息量统计今日每小时消息量、发送和接收用户数。问题1：当前数据中，有一些数据的字段为空，不是合法数据。指标5：统计接收消息条数最多的Top10用户。指标2：统计每小时消息量、发送和接收用户数。统计今日发送消息最多的Top10用户。统计今日发送消息和接收消息的用户数。统计今日各地区发送消息数据量。

2024-03-14 18:57:49 531 1

原创有关Hive对数据库的常见操作(三)

SELECT * FROM itheima.orders WHERE useraddress RLIKE '..省 ..市 ..区';SELECT * FROM itheima.orders WHERE username RLIKE '[张王邓]\\S+';SELECT * FROM itheima.orders WHERE useraddress RLIKE '.*广东.*';SELECT * FROM itheima.orders WHERE useraddress LIKE '%广东%';

2024-03-13 20:09:25 880

原创有关Hive对数据库的常见操作(二)

分桶和分区一样，也是一种通过改变表的存储模式，从而完成对表优化的一种调优方式但和分区不同，分区是将表拆分到不同的子文件夹中进行存储，而分桶是将表拆分到固定数量的不同文件中进行存储。需要map字段之间的分隔符："#"；struct类型是一个复合类型，可以在一个列中存入多个子列，每个子列允许设置类型和名称有如下数据文件，说明：字段之间#分割，struct之间冒号分割。桶表的数据加载，由于桶表的数据加载通过load data无法执行，只能通过insert select. 所以，比较好的方式是。

2024-03-12 21:05:58 1977 1

原创有关Hive对数据库的常见操作(一)

在hive文件夹中（/export/server/hive）输入bin/beeline，再输入!nohup bin/hive --service hiveserver2 >> logs/hiveserver2.log 2>&1 &要注意：('EXTERNAL'='FALSE') 或 ('EXTERNAL'='TRUE')为固定写法，区分大小写！外部表必须确认创建的位置，创建外部表的方法可以是先有数据，再有表，也可以先有表再有数据，两者在被删除后元数据均存在。(2)将查询的结果导出到本地 - 指定列分隔符。

2024-03-11 21:21:40 2107

原创 Hive学习

INSERT INTO test VALUES(1, ‘peter’, ‘boy’), (2, ‘周杰伦’, ‘男’),(3,'林之林','女');Beeline是JDBC的客户端，通过JDBC协议和Hiveserver2服务进行通信，协议的地址是：jdbc:hive2://node1:10000。在hive安装的服务器上，首先启动metastore服务，然后启动hiveserver2服务。出现0: jdbc:hive2://node1:10000>，即可对数据库进行操作。

2024-03-08 19:18:34 353 1

原创提交MapReduce程序至YARN运行

运行内置的示例MapReduce程序代码，都在： $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar这个文件内。可以通过 hadoop jar 命令来运行它，提交MapReduce程序到YARN中。语法：hadoop jar 程序文件 java类名 [程序参数] ... [程序参数]打开/export/server/hadoop/share/hadoop/mapreduce，找到一个名称叫做。

2024-03-08 10:27:44 378 1

原创关于 Name node is in safe mode.问题的解决

我在站上查了一下，应该是由于我的hdfs刚刚启动，它处于一个安全模式，此时我们只需要把安全模式关掉，即可重新创建一个文件夹。因为我在Linux中创建一个文件夹时，出现了这个问题，此时出现下面结果即是把安全模式关闭。

2024-03-08 09:07:47 329 1

原创关于MapReduce和YARN的认识

一键启动YARN集群： $HADOOP_HOME/sbin/start-yarn.sh会基于yarn-site.xml中配置的yarn.resourcemanager.hostname来决定在哪台机器上启动resourcemanager会基于workers文件配置的主机启动NodeManager 一键停止YARN集群： $HADOOP_HOME/sbin/stop-yarn.sh在当前机器，单独启动或停止进程。

2024-03-07 21:16:07 894

原创关于HDFS存储相关的知识

dfs.namenode.checkpoint.period，默认3600（秒）即1小时 dfs.namenode.checkpoint.txns，默认1000000，即100W次事务。-files可以列出路径内的文件状态 -files -blocks 输出文件块报告（有几个块，多少副本）edits文件，是一个流水账文件，记录了hdfs中的每一次操作，以及本次操作影响的文件其对应的block。如当前已存在fsimage文件，将全部edits和已存在的fsimage进行合并，形成新的fsimage。

2024-03-07 16:51:15 351

fly66666666的博客