自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 收藏
  • 关注

原创 双十一美妆销售

接下来用seaborn包给出每个店铺各个大类以及各个小类的销量销售额。

2025-05-07 15:59:02 221

原创 电商双11美妆数据分析

通过上面观察数据发现sale_count,comment_count 存在缺失值,先观察存在缺失值的行的基本情况。对是否是男性专用进行分析并新增一列。对每个产品总销量新增销售额这一列。2.3 数据挖掘寻找新的特征。由title新生成两列类别。给出各个关键词的分类类别。

2025-05-07 15:46:33 358

原创 数据科学与计算

Seaborn 是一个建立在 Matplotlib 基础之上的 Python 数据可视化库,专注于绘制各种统计图形,以便更轻松地呈现和理解数据。Seaborn 的设计目标是简化统计数据可视化的过程,提供高级接口和美观的默认主题,使得用户能够通过少量的代码实现复杂的图形。sns.scatterplot() - 散点图。sns.violinplot() - 小提琴图。sns.lineplot() - 折线图。sns.barplot() - 柱形图。sns.boxplot() - 箱线图。Seaborn的介绍。

2025-04-30 20:50:36 591

原创 大数据应用开发和项目实战

大数据应用开发和项目实战。

2025-04-29 10:17:03 182

原创 大数据应用开发和项目实战

grid():来设置图表中的网格线。subplot():用于绘制多个子图,在绘图时需要指定位置。9.fmt 参数定义了基本格式,如标记、线条样式和颜色。Matplotlib的介绍。大数据应用开发和项目实战。安装Matplotlib。

2025-04-28 17:05:37 164

原创 Spark-Streaming核心编程(四

Window Operations 可以设置窗口的大小和滑动窗口的间隔来动态的获取当前 Steaming 的允许状态。所有基于窗口的操作都需要两个参数,分别为窗口时长以及滑动步长。

2025-04-27 16:39:11 391

原创 Spark

存在的问题,接收数据的 Executor 和计算的 Executor 速度会有所不同,特别在接收数据的 Executor速度大于计算的 Executor 速度,会导致计算数据的节点内存溢出。可以通过 objectFile[T: ClassTag](path)函数接收一个路径,读取对象文件,返回对应的 RDD,也可以通过调用saveAsObjectFile()实现对对象文件的输出。MapPartitions 算子需要传递一个迭代器,返回一个迭代器,没有要求的元素的个数保持不变,所以可以增加或减少数据。

2025-04-27 16:37:26 780

原创 Kafka和其他组件的整合

DStream 上的操作与 RDD 的类似,分为 Transformations(转换)和 Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:updateStateByKey()、transform()以及各种 Window 相关的原语。需要记住的是,尽管这些函数看起来像作用在整个流上一样,但事实上每个 DStream 在内部是由许多 RDD(批次)组成,且无状态转化操作是分别应用到每个 RDD 上的。// 等迭代器中的数据,全部完成之后,再关。

2025-04-25 10:30:22 702

原创 spark连接kafka

ReceiverAPI:需要一个专门的 Executor 去接收数据,然后发送给其他的 Executor 做计算。存在的问题,接收数据的 Executor 和计算的 Executor 速度会有所不同,特别在接收数据的 Executor速度大于计算的 Executor 速度,会导致计算数据的节点内存溢出。DirectAPI:是由计算的 Executor 来主动消费 Kafka 的数据,速度由自身控制。此命令会从日志文件中的最后的位置开始消费。早期版本中提供此方式,当前版本不适用。主题名称-分区编号。

2025-04-24 10:41:19 803

原创 Kafka

修改 spark-defaults.conf.template 文件名为 spark-defaults.conf。利用已有的3台机器:node01、node02、node03。查看node01:8088页面。上传安装包到集群中,并解压。启动脚本和停止脚本命令。

2025-04-23 17:44:24 461

原创 Spark-SQL核心编程(七)

Spark SQL CLI 可以很方便的在本地运行 Hive 元数据服务以及从命令行执行查询任务。在 Spark 目录下执行如下命令启动 Spark SQL CLI,直接执行 SQL 语句,类似于 Hive 窗口。D:\spark\spark-3.0.0-bin-hadoop3.2\bin当中直接运行spark-sql。2. 将hive-site.xml 文件拷贝到项目的 resources 目录中。

2025-04-22 10:35:25 276

原创 Spark-Streaming核心编程

可以通过使用 ssc.queueStream(queueOfRDDs)来创建 DStream,每一个推送到这个队列中的 RDD,都会作为一个DStream 处理。需求:循环创建几个 RDD,将 RDD 放入队列。自定义数据源需要继承 Receiver,并实现 onStart、onStop 方法来自定义数据源采集。创建DStream的三种方式:RDD队列、自定义数据源、kafka数据源。案例:自定义数据源,实现监控某个端口号,获取该端口号内容。

2025-04-22 10:26:52 565

原创 Spark-Streaming

需求:使用 netcat 工具向 9999 端口不断的发送数据,通过 SparkStreaming 读取端口数据并统计不同单词出现的次数。

2025-04-22 10:18:16 356

原创 Spark-SQL核心编程(六)

"):在"csv"、"jdbc"、"json"、"orc"、"parquet"和"textFile"格式下需要传入加载。"):指定加载的数据类型,包括"csv"、"jdbc"、"json"、"orc"、"parquet"和。"):指定保存的数据类型,包括"csv"、"jdbc"、"json"、"orc"、"parquet"和。"):在"csv"、"orc"、"parquet"和"textFile"格式下需要传入保存数据的路径。如果保存不同格式的数据,可以对不同的数据格式进行设定。是加载数据的通用方法。

2025-04-16 18:06:40 733

原创 Spark-SQL核心编程

除此之外,用户可以设定自己的自定义聚合函数。Spark3.0之前我们使用的是UserDefinedAggregateFunction作为自定义聚合函数,从 Spark3.0 版本后可以统一采用强类型聚合函数 Aggregator。强类型的 Dataset 和弱类型的 DataFrame 都提供了相关的聚合函数, 如 count(),利用IDEA开发Spark-SQL。创建Spark-SQL。创建上下文环境配置对象。

2025-04-15 10:03:56 804

原创 Spark-SQL核心编程

在 IDEA 中开发程序时,如果需要 RDD 与 DF 或者 DS 之间互相操作,那么需要引入 import spark.implicits._ 这里的 spark 不是 Scala 中的包名,而是创建的 sparkSession 对象的变量名称,所以必 须先创建 SparkSession 对象再导入。而 Dataset 中,每一行是什么类型是不一定的,在自定义了 case class 之后可以很自由的获得每一行的信息。DataFrame 其实是 DataSet 的特例,所以它们之间是可以互相转换的。

2025-04-14 17:38:49 1070

原创 Spark-core编程

Executor 端的每个 Task 都会得到这个变量的一份新的副本,每个 task 更新这些副本的值后,传回 Driver 端进行 merge。在 Driver 程序中定义的变量,在。比如,如果你的应用需要向所有节点发送一个较大的只读查询表,广播变量用起来都很顺手。在多个并行操作中使用同一个变量,但是 Spark 会为每个任务。行动算子就是会触发action的算子,触发action的含义就是真正的计算数据。广播变量用来高效分发较大的对象。向所有工作节点发送一个较大的只读值,以供一个。

2025-04-11 10:04:16 416

原创 Spark-Core编程

无论是将分区数多的RDD 转换为分区数少的 RDD,还是将分区数少的 RDD 转换为分区数多的 RDD,repartition操作都可以完成,因为无论如何都会经 shuffle 过程。将待处理的数据以分区为单位发送到计算节点进行处理,这里的处理是指可以进行任意的处理,哪怕是过滤数据,在处理时同时可以获取当前分区索引。将待处理的数据以分区为单位发送到计算节点进行处理,这里的处理是指可以进行任意的处理,哪怕是过滤数据。当数据进行筛选过滤后,分区不变,但是分区内的数据可能不均衡,生产环境下,可能会出。

2025-04-10 10:27:41 776

原创 Spark Core

Spark 集群的独立部署环境中,不需要依赖其他的资源调度框架,自身就实现了资源调度的功能,所以环境中还有其他两个核心组件:Master 和 Worker,这里的 Master 是一个进程,主要负责资源的调度和分配,并进行集群的监控等职责,类似于 Yarn 环境中的 RM, 而Worker 呢,也是进程,一个 Worker 运行在集群中的一台服务器上,由 Master 分配资源对数据进行并行的处理和计算,类似于 Yarn 环境中 NM。在提交应用中,可以提供参数指定计算节点的个数,以及对应的资源。

2025-04-09 17:30:06 1013

原创 Spark原理及代码

3、Master & Worker:Spark 集群的独立部署环境中,不需要依赖其他的资源调度框架,自身就实现了资源调度的功能,所以环境中还有其他两个核心组件:Master 和 Worker,这里的 Master 是一个进程,主要负责资源的调度和分配,并进行集群的监控等职责,类似于 Yarn 环境中的 RM, 而Worker 呢,也是进程,一个 Worker 运行在集群中的一台服务器上,由 Master 分配资源对数据进行并行的处理和计算,类似于 Yarn 环境中 NM。Hash 分区为当前的默认分区。

2025-04-09 17:13:37 885

原创 集合计算高级函数

Reduce 简化(归约) :通过指定的逻辑将集合中的数据进行聚合,从而减少数据,最终获取结果。单词计数:将集合中出现的相同的单词,进行计数,取计数排名前三的结果。遍历一个集合并从中获取满足指定条件的元素组成一个新的集合。将集合中的每一个元素映射到某一个函数。Fold 折叠:化简的一种特殊情况。按照指定的规则对集合的元素进行分组。

2025-04-08 15:43:44 238

原创 spark安装

启动成功后,可以输入网址进行Web UI监控页面进行访问。(默认端口为4040)在解压缩文件夹下的 data 目录中,添加 word.txt 文件。在命令行工具中执行如下代码指令。

2025-04-08 15:41:11 202

原创 大数据技术之scala

/(2)创建一个 List(数据有顺序,可重复) val list: List[Int] = List(1,2,3,4,3)// 使用 get 访问 map 集合的数据,会返回特殊类型 Option(选项):有值(Some),无值(None)//(5)集合间合并:将一个整体拆成一个一个的个体,称为扁平化val list3 = List(8,9)//(1)创建了一个二维数组, 有三个元素,每个元素是,含有 4 个元素一维数组()//(1)声明元组的方式:(元素 1,元素 2,元素 3)

2025-04-07 16:20:02 839

原创 抽象属性和抽象方法

第二种,一个类(Sub)混入的两个 trait(TraitA,TraitB)中具有相同的具体方法,且两个 trait 继承自相同的 trait(TraitC),及所谓的“钻石问题”,解决这类冲突问题,Scala 采用了。由于一个类可以混入(mixin)多个 trait,且 trait 中可以有具体的属性和方法,若混入的特质中具有相同的方法(方法名,参数列表,返回值均相同),必然会出现继承冲突问题。,也就是说,多个类具有相同的特质(特征)时,就可以将这个特质(特征)独立出来,采用关键字 trait 声明。

2025-04-03 17:26:53 739

原创 Scala编程代码

在 Java 中,访问权限分为:public,private,protected 和默认。多个类:import java.util.{HashSet, ArrayList} 屏蔽类:import java.util.{ArrayList =>_,_}封装在一起,数据被保护在内部,程序的其它部分只有通过被授权的操作(成员方法),才能对数据进行操作。和 Java 一样,可以在顶部使用 import 导入,在这个文件中的所有类都可以使用。注意:Scala 中没有 public,一个.scala 中可以写多个类。

2025-04-02 17:29:42 853

原创 函数编程代码

x:表示输入参数类型;Int:表示输入参数类型;函数体:表示具体代码逻辑。为完成某一功能的程序语句的集合,称为函数。没有名字的函数就是匿名函数。自定义一个 While 循环。函数可以作为函数返回值返回。函数可以作为参数进行传递。函数可以作为值进行传递。

2025-04-01 10:40:21 368

原创 数据范围内代码

/百钱买百鸡 公鸡价格5块一只 母鸡价格3块一只 一块钱3只小鸡一共有100块钱需要买100只鸡问 一共有几种买法 分别列举出来。println("公鸡有" + i + "只,母鸡有" + j + "只,小鸡有" + k + "只")(3).输出 1 到 5 中,不等于 3 的值。(2).输出 5 句 "scala "while (循环条件) {循环体(语句) 循环变量迭代。循环体(语句) 循环变量迭代。} while(循环条件)( 2 ).案例实操。

2025-03-31 17:52:18 252

原创 Scala代码

一.字符串的插值操作二.条件表达式三.类型的转换。

2025-03-28 11:40:57 1013

原创 Scala

一行中只有空格或者带有注释,Scala 会认为其是空行,会忽略它。Scala 使用 package 关键字定义包,在Scala将代码定义到某个包中有两种方式。第一种方法和 Java 一样,在文件的头定义包名,这种方法就后续所有代码都放在该包中。Scala 的命名规则采用和 Java 类似的 camel 命名规则,首字符小写。Scala是面向行的语言,语句可以用分号(;Scala 可以使用两种形式的标志符,字符数字和符号。静态类型,泛型类,协变和逆变,标注,高阶函数,不可变性,模式匹配,闭包。

2025-03-27 10:50:01 262

原创 图像识别技术与应用

5*64 =320 , 最终组合得到全部特征。现在来看 , 很多视觉任务都可以套用这招。M 训练的时候同样会用到L4 ,效果还不错。M 以前我们都是加法 , 现在全都要。把能拼能凑的特征全用上就是升级版了。不同的max pool整合低阶特征。这么简单的结构就能把分割任务做好。起初是做医学方向 , 现在也是。其实跟densenet思想一致。损失由多个位置计算 , 再更新。(X1和X2 , 轮廓之类的)也是很常见的事 , 多输出。简单但是很实用 ,应用广。(感受野大的 , 全局的)还引入了特征拼接操作。

2025-03-21 11:18:48 418

原创 图像识别技术与应用

并且还是一个捷径 , 红色的没准走个100层(Resnet) , 绿色的几层就到了。亲民政策 , 单GPU就能训练的非常好 , 接下来很多小模块都是这个出发点。数据增强: 调整亮度、 对比度、 色调、 随机缩放、 剪切、 翻转、 旋转。V3中为了更好满足不同输入大小 , 训练的时候要改变输入数据的大小。做人留一面日好相见 ,柔和一点的NMS , 更改分数而且直接剔除。网络细节部分加入了很多改进 , 引入了各种能让特征提取更好的方法。注意力机制 , 网络细节设计 ,特征金字塔等 , 你能想到的全有。

2025-03-14 10:43:10 895

原创 图像识别技术与应用

(5).从今天的角度来看,基本所有网络架构都用上了残差连接的方法。终于到V3了,最大的改进就是网络结构,使其更适合小目标检测。V3中也用了resnet的思想,堆叠更多的层来进行特征提取。V3中也用了resnet的思想,堆叠更多的层来进行特征提取。从今天的角度来看,基本所有网络架构都用上了残差连接的方法。特征做的更细致,融入多持续特征图信息来预测不同规格物体。先验框更丰富了,3种scale,每种3个规格,一共9种。为了能检测到不同大小的物体,设计了3个scale。下采样通过stride为2实现。

2025-03-13 11:31:03 293

原创 图像识别技术与应用

faster-rcnn系列选择的先验比例都是常规的,但是不一定完全适合数据集。通过引入anchor boxes,使得预测的box数量更多(13*13*n)经过Batch Normalization处理后的网络会提升2%的mAP。可能导致模型水土不服,V2训练时额外又进行了10次448*448的微调。这样会导致收敛问题,模型不稳定,尤其是刚开始进行训练的时候。V1训练时用的是224*224,测试时使用448*448。网络的每一层的输入都做了归一化,收敛相对更容易。10 =(X,Y,H,W,C)*B(2个)

2025-03-12 16:16:39 399

原创 图像识别技术与应用

VOC数据集:PASCAL VOC挑战赛(The PASCAL Visual Object Classes)是一个世界级的计算机视觉挑战赛。(Xmin, Ymin, W, H),其中x,y,w,h均不是归一化后的数值,分别代表左上角坐标和宽、高。经典发展线:R-CNN、SPP-Net、Fast R-CNN、 Faster R-CNN。(Xmin,Ymin,Xmax,Ymax)分别代表左上角和右下角的两个坐标。4.类别+真实边界框坐标(x,y,w,h)mean AP:每个类别所得到的AP的均值。

2025-03-11 10:54:37 288

原创 图像分类识别项目的总结

AlexNet的架构与LeNet相似,但使⽤了更多的卷积层和更多的参数来拟合大规模的ImageNet数据集。②Boosting:个体学习器间存在强依赖关系、必须串行生成的序列化方法,如Adaboost。• 今天,AlexNet已经被更有效的架构所超越,但它是从浅层⽹络到深层网络的关键一步。①Bagging:个体学习器间不存在强依赖关系、可同时生成的并行化方法,代表为随机森林。FN(False negative,假反例)——将正类预测为反类数。将不同的图像,划分到不同的类别标签,实现最小的分类误差。

2025-03-10 17:27:24 706

原创 手写数字识别项目

4. 将所有弱分类组合成强分类器,各个弱分类器的训练过程结束后,加大分类误差率小的弱分类器的权重,降低分类误差率大的弱分类器的权重。2. 训练弱分类器,如果样本分类正确,则在构造下一个训练集中,它的权值就会被降低;①Bagging:个体学习器间不存在强依赖关系、可同时生成的并行化方法,代表为随机森林。4.构造树模型:由于二重随机性,使得每个树基本上都不会一样,最终的结果也会不一样。最终的结果:每个分类器根据自身的准确性来确定各自的权重,再合体。Boosting:从弱学习器开始加强,通过加权来进行训练。

2025-03-06 10:55:51 1571

原创 机器的学习

对于一个复杂任务来说,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断好。集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务等。5.集成学习的结果通过投票法产生?

2025-03-05 15:56:48 127

原创 【无标题】

wu

2025-03-04 10:18:05 90

原创 图像分类项目

2025-03-03 17:31:01 82

原创 【无标题】

可以用来表示模型的精度,即模型识别正确的个数/样本的总个数。(3)召回率(Recall):又称为查全率,表示模型正确识别出为正类的样本的数量占总的正类样本数量的比值。主对角线的元素之和为正确分类的样本数,其余元素之和为错误分类的样本数。(2)准确率(Precision):又称为查准率,表示在模型识别为正类的样本中,真正为正类的样本所。对于k分类问题,混淆矩阵为k*k的矩阵,元素Cij表示第i类样本被分类器判定为第j类的数量。将不同的图像,划分到不同的类别标签,实现最小的分类误差。

2025-02-28 10:09:00 404

20231030982 - 马依琳.docx

20231030982 - 马依琳.docx

2025-02-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除