薇晶晶-CSDN博客

原创 Vuex和Vue的区别

Vuex：在大型Vue应用中，当多个组件需要共享和协同管理状态时使用，如电商应用中的购物车功能、多页面应用中的用户登录状态管理等场景，能有效提升应用的可维护性和可扩展性。- Vuex：作用于整个应用程序，提供一个全局的状态存储，所有组件都可以访问和修改其中的状态，统一管理应用中多个组件共享的状态，如用户登录状态、全局配置信息等。- Vuex：是Vue.js应用程序的状态管理库，用于集中管理应用的全局状态，解决多个组件之间状态共享和传递的问题，让状态的更新和管理更有序、可预测。

2025-05-15 17:48:38 449

原创 vuex基本介绍

Module：将Vuex的状态管理按照不同的功能模块进行划分，每个模块都有自己的State、Getter、Mutation和Action，便于大型项目的状态管理和维护。- 多组件共享数据：多个组件需要共享相同的数据，并且这些数据需要在不同组件之间进行同步和更新时，Vuex提供了一个统一的存储和管理机制。- 响应式：基于Vue的响应式系统，当状态发生变化时，相关的组件会自动更新，确保视图与状态的一致性。- 可预测性：通过严格的规则和流程来管理状态的变化，使得状态的更新过程可预测，便于调试和维护。

2025-05-15 17:47:10 258

原创 vue基本介绍

单页应用（SPA）：能够构建出交互性强、用户体验好的单页应用，适合开发各种类型的Web应用，如电商平台、企业管理系统等。- 渐进式框架：可以从简单的视图层开始使用，逐步扩展到复杂的单页应用或大型项目，适合不同规模的开发场景。- 组件系统：允许创建可复用的组件，每个组件都有自己的状态和逻辑，通过组件的组合可以构建复杂的用户界面。- 状态管理：对于大型应用，Vuex可以帮助管理应用的全局状态，使状态的更新和传递更加清晰和可控。- 轻量级：核心库体积小，便于快速加载，适合构建各种规模的应用。

2025-05-15 17:45:03 399

原创 spark基本介绍

易用性：支持多种编程语言，如Java、Scala、Python和R等，提供丰富的API，方便开发人员进行数据处理和分析。- MLlib：机器学习库，提供了一系列的机器学习算法和工具，如分类、回归、聚类等，方便用户进行数据挖掘和分析。- GraphX：用于图计算的组件，提供了图数据的表示和操作方法，能处理复杂的图结构数据。- 实时流计算：处理实时产生的流数据，如网站日志、传感器数据等，实现实时监控和预警。- 图计算：处理社交网络、知识图谱等图结构数据，进行节点关系分析、路径查找等操作。

2025-05-15 17:41:27 588

原创案例数据清洗3

2025-05-15 07:27:30 119

原创 spark缓存-cache

2025-05-15 07:27:11 101

原创案例数据清洗2

2025-05-14 10:52:25 114

原创 RDD数据清洗

2025-05-14 10:48:24 217

原创 RDD转换算子

2025-05-14 10:45:20 532

原创案例流量统计

2025-05-14 10:45:13 95

原创 RDD行动算子

2025-05-14 10:45:04 359

原创 hadoop中spark基本介绍

RDD：是Spark的核心数据结构，代表一个不可变的、可分区的、分布式的数据集。- SparkContext：是Spark应用程序的入口点，负责与集群管理器（如Hadoop YARN）进行通信，管理集群资源，创建RDD、累加器和广播变量等。- YARN：与Hadoop的YARN集成，由YARN负责资源管理和调度，Spark应用程序作为YARN的一个应用运行在集群上。- 通用：不仅可以进行批处理，还能支持交互式查询、流计算、机器学习、图计算等多种计算模式，是一个多用途的大数据处理平台。

2025-05-14 09:55:32 407

原创理解map-reduce

Map（映射）：将输入数据解析成键值对，然后将具有相同键的数据发送到同一台机器上进行处理，这个过程会调用用户自定义的Map函数对每个键值对进行处理，生成一组中间键值对。- Reduce（归约）：将Map阶段生成的中间键值对按照键进行分组，然后对每个组调用用户自定义的Reduce函数进行处理，将具有相同键的值进行合并或计算，最终生成结果。- Reduce阶段：每个Reduce节点对收到的键值对进行处理，执行Reduce函数，将相同键的值进行合并或计算，生成最终结果。

2025-05-14 09:53:23 421

原创 hadoop中了解yarm

YARN提供了多种调度器，如FIFO Scheduler（先进先出，适合低负载集群）、Capacity Scheduler（将资源分为多个队列，允许共享集群，保证每个队列最小资源使用）和Fair Scheduler（公平地将资源分给应用，使所有应用平均得到相同资源份额）。以内存为单位表示资源更合理；- ApplicationMaster（AM）：每个应用程序包含一个AM，主要功能是与RM调度器协商获取资源，将任务分配给内部任务，与NM通信启动/停止任务，监控任务状态并在失败时重启任务。

2025-05-14 09:51:36 742

原创 hadoop知识点

echo111>a.txt 会把111写入a.txt这个文件中，把之前的内容删除掉。| 管道运算符，它的功能是：把上一个命令的输出结果，作为下一个命令输入内容。命令：tar-cvf test.tar 1.txt 2.txt 3.txt。echo111>>a.txt 会把111追加到a.txt这个文件中。-c 建立一个压缩文件，把多个文件或者文件夹压缩到一个新的文件中。示例：把一个压缩文件（test.tar）解压出来，就放在指定目录。示例：把filel.txt复制一份得到file2.txt。

2025-05-14 09:45:52 525

原创 hadoop

YARN 是 Hadoop 中的资源管理和调度框架，它将资源管理和作业调度 / 监控功能分离，为集群中运行的各种应用程序（如 MapReduce、Spark 等）提供统一的资源管理和调度服务，使集群资源能更高效、灵活地被使用。它接收来自各个节点的资源汇报，监控集群资源使用情况，并根据应用程序的资源请求，按照一定的调度策略分配资源给 ApplicationMaster。◦ 适用场景：适用于多用户、多应用共享集群的场景，能保证每个用户或应用类别有一定的资源份额，实现资源的合理分配，兼顾公平性和灵活性。

2025-05-14 09:43:15 467

原创创建RDD

2025-05-14 09:42:37 311

原创了解rdd

但是 mapPartitions 算子会长时间占用内存，那么这样会导致内存可能不够用，出现内存溢出的错误。使用 map 操作完成即可。m apPartitions 算子需要传递一个迭代器，返回一个迭代器，没有要求的元素的个数保持不变，所以可以增加或减少数据。说明：将待处理的数据以分区为单位发送到计算节点进行处理，这里的处理是指可以进行任意的处理。map 算子是分区内一个数据一个数据的执行，类似于串行操作。说明：将处理的数据逐条进行映射转换，这里的转换可以是类型的转换，也可以是值的转换。

2025-05-14 09:41:30 389

原创 RDD的算子

RDD 算子分为转换算子（Transformations）和行动算子（Actions），它们共同构成了 Spark 编程的核心抽象。• 定义：转换算子是惰性的（Lazy），用于从现有 RDD 创建新的 RDD，不会触发实际计算。◦ reduceByKey(func)：按键聚合值（需 K-V 格式）。◦ flatMap(func)：先映射后扁平化（如将行拆分为单词）。◦ 惰性执行：仅记录计算逻辑（DAG），不立即执行。◦ join()：连接两个 RDD（K-V 格式）◦ 返回值：始终返回新的 RDD。

2025-05-14 09:41:00 339

原创 hadoop

下面简单介绍下Hadoop的三种运行模式。1、Sqoop：Sqoop 是一款开源的工具，主要用于在 Hadoop、Hive 与传统的数据库(MySql)间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到Hadoop 的 HDFS 中，也可以将 HDFS 的数据导进到关系型数据库中。2、Flume：Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume 支持在日志系统中定制各类数据发送方，用于收集数据；

2025-05-14 08:51:36 648

原创 hodoop

HDFS (Hadoop Distributed File System) ，它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。Hadoop 是一个提供分布式存储和计算的开源软件框架，它具有无共享、高可用（HA）、弹性可扩展的特点，非常适合处理海量数量。HDFS 的使用场景：适合一次写入，多次读出的场景，且不支持文件的修改。它通过增加副本的形式，提高容错性。（ 1 ）不适合低延时数据访问，比如毫秒级的存储数据，是做不到的。

2025-05-14 08:48:54 342

原创第十章大数据在不同领域的应用

能源行业：智能电网，以海量用户用电信息为基础进行大数据分析，可以更好理解电力客户用电行为，优化提升短期用电负荷预测系统，提前预知未来2-3个月的电网需求电量、用电高峰和低谷，合理设计电力需求响应系统。汽车：无人驾驶汽车，实时采集车辆各种行驶数据和周围环境，利用大数据分析系统高效分析，迅速做出各种驾驶动作，引导车辆安全行驶。安防领域：基于视频监控、人口信息、地理数据信息等，利用大数据技术实现智能化信息分析、预测和报警。智慧医疗：利用医疗大数据，促进优质医疗资源共享、避免患者重复检查、促进医疗智能化。

2025-03-31 17:50:57 493

原创 Spark

当执行一个Application时，Driver会向集群管理器申请资源，启动Executor，并向Executor发送应用程序代码和文件，然后在Executor上执行Task，运行结束后，执行结果会返回给Driver，或者写到HDFS或者其他数据库中。运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源。资源管理器为Executor分配资源，并启动Executor进程。

2025-03-31 17:48:13 595

原创流计算概念

虽然通过对传统的数据处理系统进行定时查询，也可以实现不断地更新结果和结果推送，但通过这样的方式获取的结果，仍然是根据过去某一时刻的数据得到的结果，与实时结果有着本质的区别。以日志数据为例，由于分布式集群的广泛应用，数据分散存储在不同的机器上，因此需要实时汇总来自不同机器上的日志数据。流计算：实时获取来自不同数据源的海量数据，经过实时分析处理，获得有价值的信息。流计算的处理流程一般包含三个阶段：数据实时采集、数据实时计算、实时查询服务。数据实时计算阶段对采集的数据进行实时的分析和计算，并反馈实时结果。

2025-03-31 17:42:47 547

原创 MapReduce

TaskTracker 会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker，同时接收JobTracker 发送过来的命令并执行相应的操作（如启动新任务、杀死任务等）JobTracker 会跟踪任务的执行进度、资源使用量等信息，并将这些信息告诉任务调度器（TaskScheduler），而调度器会在资源出现空闲时，选择合适的任务去使用这些资源。两个键值对<“a”,1>和<“a”,1>，如果合并，会得到<“a”,2>，如果归并，会得到<“a”,<1,1>>

2025-03-30 18:07:53 332

原创云数据库概念

云数据库是部署和虚拟化在云计算环境中的数据库。云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法，它极大地增强了数据库的存储能力，消除了人员、硬件、软件的重复配置，让软、硬件升级变得更加容易。云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点。UMP 系统是低成本和高性能的 MySQL 云数据库方案。Controller服务器。3.1.UMP系统概述。3.2.UMP系统架构。3.2.UMP系统功能。3.云数据库系统架构。

2025-03-30 18:06:41 347

原创 NoSQL数据库

P（Tolerance of Network Partition）：分区容忍性，是指当出现网络分区的情况时（即系统中的一部分节点无法和其他节点进行通信），分离的系统也能够正常运行，也就是说，系统中任意信息的丢失或失败不会影响系统的继续运作。C（Consistency）：一致性，是指任何一个读操作总是能够读到之前完成的写操作的结果，也就是在分布式环境中，多点的数据是一致的，或者说，所有节点在同一时间具有相同的数据。支持各种编程语言:RUBY，PYTHON，JAVA，C++，PHP，C#等语言。

2025-03-30 18:02:22 416

原创什么是大数据

集群中的数据节点一般是一个节点运行一个数据节点进程，负责处理文件系统客户端的读/写请求，在名称节点的统一调度下进行数据块的创建、删除和复制等操作。每个数据节点的数据实际上是保存在本地Linux文件系统中的。（1）数据节点是分布式文件系统HDFS的工作节点，负责数据的存储和读取，会根据客户端或者是名称节点的调度来进行数据的存储和检索，并且向名称节点定期发送自己所存储的块的列表。命名空间的限制：名称节点是保存在内存中的，因此，名称节点能够容纳的对象（文件、块）的个数会受到内存空间大小的限制。

2025-03-30 17:42:48 707

原创什么是虚拟机？它们如何工作？

这些虚拟网络可以由不同的用户或组织独立管理，网络虚拟化提供了在几天或几周内创建和配置虚拟网络、逻辑交换机、路由器、防火墙、负载平衡器、虚拟专用网络 (VPN) 的能力。这些虚拟网络可以由不同的用户或组织独立管理，网络虚拟化提供了在几天或几周内创建和配置虚拟网络、逻辑交换机、路由器、防火墙、负载平衡器、虚拟专用网络 (VPN) 的能力。比如，通过 VMware Fusion 或 Parallels 这样的虚拟机管理程序，用户可以在 macOS 上运行 Windows，从而访问需要的应用程序和版本。

2025-03-30 17:36:09 3473

原创虚拟机安装linux系统无法上网的解决方法

接下来，检查宿主机的相关服务。例如，检查虚拟机的网络配置文件，如`/etc/network/interfaces`（对于Debian/Ubuntu）或`/etc/sysconfig/network-scripts/ifcfg-eth0`（对于RHEL/CentOS）。虚拟机中的Linux系统无法上网可能由多种原因造成，包括虚拟机网络设置、宿主机服务状态、虚拟机内部的网络配置等。记得在解决问题的过程中做好笔记，这样在未来遇到类似问题时，可以快速找到解决办法，同时也方便分享给其他遇到同样困扰的同行。

2025-03-30 17:28:27 624

原创创建a.txt,并写入abc

木有

2025-02-26 10:29:42 170

原创搜新知识点

echo111>a.txt 会把111写入a.txt这个文件中，把之前的内容删除掉。| 管道运算符，它的功能是：把上一个命令的输出结果，作为下一个命令输入内容。命令：tar-cvf test.tar 1.txt 2.txt 3.txt。echo111>>a.txt 会把111追加到a.txt这个文件中。-c 建立一个压缩文件，把多个文件或者文件夹压缩到一个新的文件中。示例：把一个压缩文件（test.tar）解压出来，就放在指定目录。示例：把filel.txt复制一份得到file2.txt。

2025-02-26 10:03:32 347

原创如何安装配置虚拟机

2. VMware17.6.exe：虚拟机软件。用来在自己的电脑上安装虚拟机。它调用CentOS-7-x86_64-Minimal-2009.iso来安装操作系统.3. VC_redist.x86.exe: 系统补丁。如果安装VMware17.6时，提示缺少文件，再来安装它，否则不用。1. CentOS-7-x86_64-Minimal-2009.iso ： linux安装文件。4. finalshell_install.exe: 远程连接软件。安装Hadoop之后安装配置虚拟机。

2025-02-19 11:38:25 255

原创如何安装Hadoop

Hadoop入门(八)——本地运行模式+完全分布模式案例详解，实现WordCount和集群分发脚本xsync快速配置环境变量）Hadoop入门(一)——CentOS7下载+VM上安装（手动分区）Hadoop入门(五)——Hadoop集群搭建-克隆三台虚拟机。Hadoop入门(十三)——集群常用知识(面试题)与技巧总结。Hadoop入门(十二)——配置历史服务器及日志的聚集）Hadoop入门(七)——Hadoop安装。Hadoop入门(七)——Hadoop安装。Hadoop入门(十四)——集群时间同步。

2025-02-19 11:21:01 301

原创 scala的集合性能2

四、集合操作的函数式编程\nScala 的集合框架深度集成了函数式编程的概念，提供了丰富的操作方法。3. flatMap\nflatMap 函数将集合中的每个元素映射到一个集合，然后将所有这些集合扁平化成一个集合。ArrayBuffer 提供了 +=、++=、-=、--= 等方法，用于动态修改集合内容。HashMap 提供了 +=、++=、-=、--=、map 等方法，用于高效管理键值对。1. map\nmap 函数对集合中的每个元素应用给定的函数，返回一个新的集合。// 创建ArrayBuffer。

2024-12-11 21:27:38 1353

原创 scala的集合性能

一、Scala集合框架概述Scala 的集合框架主要包括两大类：scala.collection.immutable 和 scala.collection.mutable。二、不可变集合不可变集合在创建后其内容无法更改，这使得它们在多线程环境中更加安全。Scala 提供了多种不可变集合，主要包括 List、Set 和 Map。Set 是一种集合，包含唯一的元素。Set 提供了许多有用的方法，例如 +、-、++、&，用于集合的基本操作。Map 的方法包括 +、-、++、map，用于键值对的操作和变换。

2024-12-11 21:13:16 1151

空空如也

空空如也