露卡_-CSDN博客

原创双十一美妆销售

接下来用seaborn包给出每个店铺各个大类以及各个小类的销量销售额。

2025-05-07 15:59:02 221

原创电商双11美妆数据分析

通过上面观察数据发现sale_count,comment_count 存在缺失值,先观察存在缺失值的行的基本情况。对是否是男性专用进行分析并新增一列。对每个产品总销量新增销售额这一列。2.3 数据挖掘寻找新的特征。由title新生成两列类别。给出各个关键词的分类类别。

2025-05-07 15:46:33 358

Seaborn 是一个建立在 Matplotlib 基础之上的 Python 数据可视化库，专注于绘制各种统计图形，以便更轻松地呈现和理解数据。Seaborn 的设计目标是简化统计数据可视化的过程，提供高级接口和美观的默认主题，使得用户能够通过少量的代码实现复杂的图形。sns.scatterplot() - 散点图。sns.violinplot() - 小提琴图。sns.lineplot() - 折线图。sns.barplot() - 柱形图。sns.boxplot() - 箱线图。Seaborn的介绍。

2025-04-30 20:50:36 591

原创大数据应用开发和项目实战

大数据应用开发和项目实战。

2025-04-29 10:17:03 182

原创大数据应用开发和项目实战

grid()：来设置图表中的网格线。subplot()：用于绘制多个子图，在绘图时需要指定位置。9.fmt 参数定义了基本格式，如标记、线条样式和颜色。Matplotlib的介绍。大数据应用开发和项目实战。安装Matplotlib。

2025-04-28 17:05:37 164

原创 Spark-Streaming核心编程（四

Window Operations 可以设置窗口的大小和滑动窗口的间隔来动态的获取当前 Steaming 的允许状态。所有基于窗口的操作都需要两个参数，分别为窗口时长以及滑动步长。

2025-04-27 16:39:11 391

原创 Spark

存在的问题，接收数据的 Executor 和计算的 Executor 速度会有所不同，特别在接收数据的 Executor速度大于计算的 Executor 速度，会导致计算数据的节点内存溢出。可以通过 objectFile[T: ClassTag](path)函数接收一个路径，读取对象文件，返回对应的 RDD，也可以通过调用saveAsObjectFile()实现对对象文件的输出。MapPartitions 算子需要传递一个迭代器，返回一个迭代器，没有要求的元素的个数保持不变，所以可以增加或减少数据。

2025-04-27 16:37:26 780

原创 Kafka和其他组件的整合

DStream 上的操作与 RDD 的类似，分为 Transformations（转换）和 Output Operations（输出）两种，此外转换操作中还有一些比较特殊的原语，如：updateStateByKey()、transform()以及各种 Window 相关的原语。需要记住的是，尽管这些函数看起来像作用在整个流上一样，但事实上每个 DStream 在内部是由许多 RDD（批次）组成，且无状态转化操作是分别应用到每个 RDD 上的。// 等迭代器中的数据，全部完成之后，再关。

2025-04-25 10:30:22 702

原创 spark连接kafka

ReceiverAPI：需要一个专门的 Executor 去接收数据，然后发送给其他的 Executor 做计算。存在的问题，接收数据的 Executor 和计算的 Executor 速度会有所不同，特别在接收数据的 Executor速度大于计算的 Executor 速度，会导致计算数据的节点内存溢出。DirectAPI：是由计算的 Executor 来主动消费 Kafka 的数据，速度由自身控制。此命令会从日志文件中的最后的位置开始消费。早期版本中提供此方式，当前版本不适用。主题名称-分区编号。

2025-04-24 10:41:19 803

原创 Kafka

修改 spark-defaults.conf.template 文件名为 spark-defaults.conf。利用已有的3台机器：node01、node02、node03。查看node01:8088页面。上传安装包到集群中，并解压。启动脚本和停止脚本命令。

2025-04-23 17:44:24 461

原创 Spark-SQL核心编程（七）

Spark SQL CLI 可以很方便的在本地运行 Hive 元数据服务以及从命令行执行查询任务。在 Spark 目录下执行如下命令启动 Spark SQL CLI，直接执行 SQL 语句，类似于 Hive 窗口。D:\spark\spark-3.0.0-bin-hadoop3.2\bin当中直接运行spark-sql。2. 将hive-site.xml 文件拷贝到项目的 resources 目录中。

2025-04-22 10:35:25 276

原创 Spark-Streaming核心编程

可以通过使用 ssc.queueStream(queueOfRDDs)来创建 DStream，每一个推送到这个队列中的 RDD，都会作为一个DStream 处理。需求：循环创建几个 RDD，将 RDD 放入队列。自定义数据源需要继承 Receiver，并实现 onStart、onStop 方法来自定义数据源采集。创建DStream的三种方式：RDD队列、自定义数据源、kafka数据源。案例：自定义数据源，实现监控某个端口号，获取该端口号内容。

2025-04-22 10:26:52 565

原创 Spark-Streaming

需求：使用 netcat 工具向 9999 端口不断的发送数据，通过 SparkStreaming 读取端口数据并统计不同单词出现的次数。

2025-04-22 10:18:16 356

原创 Spark-SQL核心编程（六）

")：在"csv"、"jdbc"、"json"、"orc"、"parquet"和"textFile"格式下需要传入加载。")：指定加载的数据类型，包括"csv"、"jdbc"、"json"、"orc"、"parquet"和。")：指定保存的数据类型，包括"csv"、"jdbc"、"json"、"orc"、"parquet"和。")：在"csv"、"orc"、"parquet"和"textFile"格式下需要传入保存数据的路径。如果保存不同格式的数据，可以对不同的数据格式进行设定。是加载数据的通用方法。

2025-04-16 18:06:40 733

原创 Spark-SQL核心编程

除此之外，用户可以设定自己的自定义聚合函数。Spark3.0之前我们使用的是UserDefinedAggregateFunction作为自定义聚合函数，从 Spark3.0 版本后可以统一采用强类型聚合函数 Aggregator。强类型的 Dataset 和弱类型的 DataFrame 都提供了相关的聚合函数，如 count()，利用IDEA开发Spark-SQL。创建Spark-SQL。创建上下文环境配置对象。

2025-04-15 10:03:56 804

原创 Spark-SQL核心编程

在 IDEA 中开发程序时，如果需要 RDD 与 DF 或者 DS 之间互相操作，那么需要引入 import spark.implicits._ 这里的 spark 不是 Scala 中的包名，而是创建的 sparkSession 对象的变量名称，所以必须先创建 SparkSession 对象再导入。而 Dataset 中，每一行是什么类型是不一定的，在自定义了 case class 之后可以很自由的获得每一行的信息。DataFrame 其实是 DataSet 的特例，所以它们之间是可以互相转换的。

2025-04-14 17:38:49 1070

原创 Spark-core编程

Executor 端的每个 Task 都会得到这个变量的一份新的副本，每个 task 更新这些副本的值后，传回 Driver 端进行 merge。在 Driver 程序中定义的变量，在。比如，如果你的应用需要向所有节点发送一个较大的只读查询表，广播变量用起来都很顺手。在多个并行操作中使用同一个变量，但是 Spark 会为每个任务。行动算子就是会触发action的算子，触发action的含义就是真正的计算数据。广播变量用来高效分发较大的对象。向所有工作节点发送一个较大的只读值，以供一个。

2025-04-11 10:04:16 416

原创 Spark-Core编程

无论是将分区数多的RDD 转换为分区数少的 RDD，还是将分区数少的 RDD 转换为分区数多的 RDD，repartition操作都可以完成，因为无论如何都会经 shuffle 过程。将待处理的数据以分区为单位发送到计算节点进行处理，这里的处理是指可以进行任意的处理，哪怕是过滤数据，在处理时同时可以获取当前分区索引。将待处理的数据以分区为单位发送到计算节点进行处理，这里的处理是指可以进行任意的处理，哪怕是过滤数据。当数据进行筛选过滤后，分区不变，但是分区内的数据可能不均衡，生产环境下，可能会出。

2025-04-10 10:27:41 776

原创 Spark Core

Spark 集群的独立部署环境中，不需要依赖其他的资源调度框架，自身就实现了资源调度的功能，所以环境中还有其他两个核心组件：Master 和 Worker，这里的 Master 是一个进程，主要负责资源的调度和分配，并进行集群的监控等职责，类似于 Yarn 环境中的 RM, 而Worker 呢，也是进程，一个 Worker 运行在集群中的一台服务器上，由 Master 分配资源对数据进行并行的处理和计算，类似于 Yarn 环境中 NM。在提交应用中，可以提供参数指定计算节点的个数，以及对应的资源。

2025-04-09 17:30:06 1013

原创 Spark原理及代码

3、Master & Worker：Spark 集群的独立部署环境中，不需要依赖其他的资源调度框架，自身就实现了资源调度的功能，所以环境中还有其他两个核心组件：Master 和 Worker，这里的 Master 是一个进程，主要负责资源的调度和分配，并进行集群的监控等职责，类似于 Yarn 环境中的 RM, 而Worker 呢，也是进程，一个 Worker 运行在集群中的一台服务器上，由 Master 分配资源对数据进行并行的处理和计算，类似于 Yarn 环境中 NM。Hash 分区为当前的默认分区。

2025-04-09 17:13:37 885

原创集合计算高级函数

Reduce 简化（归约）：通过指定的逻辑将集合中的数据进行聚合，从而减少数据，最终获取结果。单词计数：将集合中出现的相同的单词，进行计数，取计数排名前三的结果。遍历一个集合并从中获取满足指定条件的元素组成一个新的集合。将集合中的每一个元素映射到某一个函数。Fold 折叠：化简的一种特殊情况。按照指定的规则对集合的元素进行分组。

2025-04-08 15:43:44 238

原创 spark安装

启动成功后，可以输入网址进行Web UI监控页面进行访问。（默认端口为4040）在解压缩文件夹下的 data 目录中，添加 word.txt 文件。在命令行工具中执行如下代码指令。

2025-04-08 15:41:11 202

原创大数据技术之scala

/（2）创建一个 List（数据有顺序，可重复） val list: List[Int] = List(1,2,3,4,3)// 使用 get 访问 map 集合的数据，会返回特殊类型 Option(选项):有值（Some），无值(None)//（5）集合间合并：将一个整体拆成一个一个的个体，称为扁平化val list3 = List(8,9)//（1）创建了一个二维数组, 有三个元素，每个元素是，含有 4 个元素一维数组()//（1）声明元组的方式：(元素 1，元素 2，元素 3)

2025-04-07 16:20:02 839

原创抽象属性和抽象方法

第二种，一个类（Sub）混入的两个 trait（TraitA，TraitB）中具有相同的具体方法，且两个 trait 继承自相同的 trait（TraitC），及所谓的“钻石问题”，解决这类冲突问题，Scala 采用了。由于一个类可以混入（mixin）多个 trait，且 trait 中可以有具体的属性和方法，若混入的特质中具有相同的方法（方法名，参数列表，返回值均相同），必然会出现继承冲突问题。，也就是说，多个类具有相同的特质（特征）时，就可以将这个特质（特征）独立出来，采用关键字 trait 声明。

2025-04-03 17:26:53 739

原创 Scala编程代码

在 Java 中，访问权限分为：public，private，protected 和默认。多个类：import java.util.{HashSet, ArrayList} 屏蔽类：import java.util.{ArrayList =>_,_}封装在一起，数据被保护在内部，程序的其它部分只有通过被授权的操作（成员方法），才能对数据进行操作。和 Java 一样，可以在顶部使用 import 导入，在这个文件中的所有类都可以使用。注意：Scala 中没有 public，一个.scala 中可以写多个类。

2025-04-02 17:29:42 853

原创函数编程代码

x：表示输入参数类型；Int：表示输入参数类型；函数体：表示具体代码逻辑。为完成某一功能的程序语句的集合，称为函数。没有名字的函数就是匿名函数。自定义一个 While 循环。函数可以作为函数返回值返回。函数可以作为参数进行传递。函数可以作为值进行传递。

2025-04-01 10:40:21 368

原创数据范围内代码

/百钱买百鸡公鸡价格5块一只母鸡价格3块一只一块钱3只小鸡一共有100块钱需要买100只鸡问一共有几种买法分别列举出来。println("公鸡有" + i + "只，母鸡有" + j + "只，小鸡有" + k + "只")（3）.输出 1 到 5 中，不等于 3 的值。（2）.输出 5 句 "scala "while (循环条件) {循环体(语句) 循环变量迭代。循环体(语句) 循环变量迭代。} while(循环条件)( 2 ).案例实操。

2025-03-31 17:52:18 252

原创 Scala代码

一．字符串的插值操作二．条件表达式三．类型的转换。

2025-03-28 11:40:57 1013

原创 Scala

一行中只有空格或者带有注释，Scala 会认为其是空行，会忽略它。Scala 使用 package 关键字定义包，在Scala将代码定义到某个包中有两种方式。第一种方法和 Java 一样，在文件的头定义包名，这种方法就后续所有代码都放在该包中。Scala 的命名规则采用和 Java 类似的 camel 命名规则，首字符小写。Scala是面向行的语言，语句可以用分号（;Scala 可以使用两种形式的标志符，字符数字和符号。静态类型，泛型类，协变和逆变，标注，高阶函数，不可变性，模式匹配，闭包。

2025-03-27 10:50:01 262

原创图像识别技术与应用

5*64 =320 ，最终组合得到全部特征。现在来看，很多视觉任务都可以套用这招。M 训练的时候同样会用到L4 ，效果还不错。M 以前我们都是加法，现在全都要。把能拼能凑的特征全用上就是升级版了。不同的max pool整合低阶特征。这么简单的结构就能把分割任务做好。起初是做医学方向，现在也是。其实跟densenet思想一致。损失由多个位置计算，再更新。（X1和X2 ，轮廓之类的）也是很常见的事，多输出。简单但是很实用，应用广。（感受野大的，全局的）还引入了特征拼接操作。

2025-03-21 11:18:48 418

原创图像识别技术与应用

并且还是一个捷径，红色的没准走个100层(Resnet) ，绿色的几层就到了。亲民政策，单GPU就能训练的非常好，接下来很多小模块都是这个出发点。数据增强：调整亮度、对比度、色调、随机缩放、剪切、翻转、旋转。V3中为了更好满足不同输入大小，训练的时候要改变输入数据的大小。做人留一面日好相见，柔和一点的NMS ，更改分数而且直接剔除。网络细节部分加入了很多改进，引入了各种能让特征提取更好的方法。注意力机制，网络细节设计，特征金字塔等，你能想到的全有。

2025-03-14 10:43:10 895

原创图像识别技术与应用

(5).从今天的角度来看，基本所有网络架构都用上了残差连接的方法。终于到V3了，最大的改进就是网络结构，使其更适合小目标检测。V3中也用了resnet的思想，堆叠更多的层来进行特征提取。V3中也用了resnet的思想，堆叠更多的层来进行特征提取。从今天的角度来看，基本所有网络架构都用上了残差连接的方法。特征做的更细致，融入多持续特征图信息来预测不同规格物体。先验框更丰富了，3种scale，每种3个规格，一共9种。为了能检测到不同大小的物体，设计了3个scale。下采样通过stride为2实现。

2025-03-13 11:31:03 293

原创图像识别技术与应用

faster-rcnn系列选择的先验比例都是常规的，但是不一定完全适合数据集。通过引入anchor boxes，使得预测的box数量更多（13*13*n）经过Batch Normalization处理后的网络会提升2%的mAP。可能导致模型水土不服，V2训练时额外又进行了10次448*448的微调。这样会导致收敛问题，模型不稳定，尤其是刚开始进行训练的时候。V1训练时用的是224*224，测试时使用448*448。网络的每一层的输入都做了归一化，收敛相对更容易。10 =(X,Y,H,W,C)*B（2个）

2025-03-12 16:16:39 399

原创图像识别技术与应用

VOC数据集：PASCAL VOC挑战赛(The PASCAL Visual Object Classes)是一个世界级的计算机视觉挑战赛。(Xmin, Ymin, W, H)，其中x,y,w,h均不是归一化后的数值，分别代表左上角坐标和宽、高。经典发展线：R-CNN、SPP-Net、Fast R-CNN、 Faster R-CNN。(Xmin,Ymin,Xmax,Ymax)分别代表左上角和右下角的两个坐标。4.类别+真实边界框坐标(x,y,w,h)mean AP：每个类别所得到的AP的均值。

2025-03-11 10:54:37 288

原创图像分类识别项目的总结

AlexNet的架构与LeNet相似，但使⽤了更多的卷积层和更多的参数来拟合大规模的ImageNet数据集。②Boosting：个体学习器间存在强依赖关系、必须串行生成的序列化方法，如Adaboost。• 今天，AlexNet已经被更有效的架构所超越，但它是从浅层⽹络到深层网络的关键一步。①Bagging：个体学习器间不存在强依赖关系、可同时生成的并行化方法，代表为随机森林。FN（False negative,假反例）——将正类预测为反类数。将不同的图像，划分到不同的类别标签，实现最小的分类误差。

2025-03-10 17:27:24 706

原创手写数字识别项目

4. 将所有弱分类组合成强分类器，各个弱分类器的训练过程结束后，加大分类误差率小的弱分类器的权重，降低分类误差率大的弱分类器的权重。2. 训练弱分类器，如果样本分类正确，则在构造下一个训练集中，它的权值就会被降低；①Bagging：个体学习器间不存在强依赖关系、可同时生成的并行化方法，代表为随机森林。4.构造树模型：由于二重随机性，使得每个树基本上都不会一样，最终的结果也会不一样。最终的结果：每个分类器根据自身的准确性来确定各自的权重，再合体。Boosting：从弱学习器开始加强，通过加权来进行训练。

2025-03-06 10:55:51 1571

20231030982 - 马依琳.docx

空空如也