- 博客(24)
- 收藏
- 关注
原创 分布类相关的可视化图像总结
直方图是一种直观展示数据分布特征的统计图表。它依据数据的数值范围,将数据划分为若干个连续且互不重叠的区间(组距),每个区间对应图表中的一个矩形条。矩形条的宽度代表组距,高度则表示该区间内数据的频数(即数据点的数量),或者以频率(该区间数据频数占总数据量的比例)来呈现 。通过这些矩形条的排列组合,能够清晰呈现数据在不同区间的分布疏密程度,帮助分析人员快速把握数据的整体分布形态,比如数据是否集中在某个特定范围,是否存在多个峰值等。优点:局限性使用 Python 的Plotly库,以seaborn库自带的t
2025-06-21 16:21:04
1107
原创 相关类可视化图像总结
目录一、散点图(Scatter Plot)1.定义2.特点3.变体4.应用场景5.Python代码实现 二、气泡图(Bubble Chart)1.定义2.特点3.变体4.应用场景5.Python代码实现三、相关系数矩阵1.定义2.特点3.变体4.应用场景5.Python代码实现四、平行坐标图(Parallel Coordinates Plot)1.定义2.特点3.变体4.应用场景5.Python代码实现五、二维密度图(2D Density Plot)1.定义2.特点3.变体4.应用场景5.Python代码
2025-06-09 22:06:18
1074
原创 数据可视化交互
本次实验以全国城市空气质量指数(AQI)为对象,借 Pyecharts 库完成多类型可视化任务。可视化原则落地:遵循交互体验原则,如实验1给横向条形图加数据缩放、均值标记,实验2为饼图设点击弹窗,保障交互高效,助用户理解数据。技术分类实践:覆盖条形图、饼图、Geo、Map3D、Tab仪表盘等可视化类型,验证不同场景技术选型逻辑。核心技术掌握:熟用Pyecharts配置样式、处理交互,结合数据清洗、简单建模,实现“数据 - 可视化 - 交互分析”闭环。
2025-06-09 20:08:25
1297
原创 地理特征类相关可视化图像总结
最终生成的图形中,密集的等值线表示坡度陡峭区域,稀疏处则表示平缓地形,颜色越深(如蓝色)代表海拔越低,越亮(如橙色)代表海拔越高,直观展现了数据的空间分布和梯度变化。运行结果中,流线走向反映风向,密集处表示流场变化剧烈,颜色深浅对应风速,地理底图与流场叠加清晰呈现了模拟的气象与洋流模式,适用于地理空间矢量数据的动态分析与展示。与传统地图不同,变形地图中地理区域的大小和形状并非依据实际地理面积和形状,而是根据特定的变量(如人口数量、GDP、资源分布等)进行缩放或变形,目的是突出某些属性的大小和分布情况。
2025-05-24 16:25:33
1231
原创 文本数据可视化
文本是语言和沟通的载体,文本的含义以及读者对文本的理解需求均纷繁复杂。例如,对于同一个文本,不同的人的解读也是不一样的,有的人希望了解文本中涉及到的事物,而有的人希望得到文本中的关键词。文本文档的类别多种多样,包括单文本、文档集合和时序文本数据三大类,这使得文本信息的需求更为丰富。哈希算法能将任意长度的数据映射为固定长度的哈希值,不同的输入通常会得到不同的哈希值,从而保证指纹的唯一性。:读取文本内容,将文本转换为小写形式,去除标点符号,这样可以统一文本格式,方便后续处理。尝试构造该文本内容的文献指纹。
2025-05-12 21:16:59
1240
2
原创 时间趋势类可视化图像总结
瀑布图(Waterfall Chart)是一种特殊的柱状图,通过一系列上升和下降的柱子直观展示起始值经过多个增减阶段后最终结果的变化过程。每个柱子代表一个独立的增减值,通常用不同颜色区分增加(如绿色)和减少(如红色),起始值和最终值常用特殊样式(如悬浮柱或不同填充)突出显示。烛形图是金融领域常用的一种数据可视化图表,用于展示一段时间内金融资产(如股票、期货、外汇等)的价格波动情况。
2025-05-10 10:45:29
463
原创 关系数据的可视化
本次实验围绕关系数据在大数据中的应用及可视化展开,通过多种Python程序实现的图表,深入探究了犯罪类型数据之间的关系。在实验过程中,首先利用seaborn模块的jointplot方法,将散点图、密度分布图和直方图结合,对谋杀(murder)和入室盗窃(burglary)两种犯罪类型的关系进行探究。这种可视化方式从多个角度展示了数据的分布和相关性,直观呈现出两种犯罪类型在不同维度下的特征,为进一步分析提供了基础。
2025-04-28 20:29:56
1412
1
原创 绘制板块层级图
本次实验围绕绘制板块层级图展开,涵盖数据读取、处理以及可视化等关键环节。在实验中我们成功掌握了数据文件读取、处理方法以及板块层级图的绘制。通过pandas库的read_csv函数读取数据文件,利用mergegroupbynunique等函数对数据进行处理和聚合操作,最终使用squarify库绘制出板块层级图,并对图形进行了美化。我们深入理解了板块层级图的原理和应用场景,其基于面积可视化,能有效展示树状结构数据和比例关系。熟练掌握了多个 Python 库的使用,包括pandas用于数据处理与分析、
2025-04-28 19:28:55
846
原创 分布类相关的可视化图像
直方图是一种用于展示数据分布的柱状图。它将数据划分为若干个连续、不重叠的区间(称为“桶”或“bin”),并统计每个区间内的数据点数量。直方图通过柱状的高度来表示每个区间内的数据频数,从而直观地展示数据的分布情况。密度图是一种基于核密度估计(Kernel Density Estimation, KDE)的可视化方法,用于展示数据的概率密度分布。它通过平滑处理数据点,生成一条连续的曲线,从而更直观地展示数据的分布特征。
2025-04-20 21:48:24
1023
原创 局部与整体类可视化图像总结
韦恩图(Venn Diagram)是一种用于展示集合之间关系的图形工具。它主要通过使用封闭的曲线(通常是圆形或椭圆形)来表示不同的集合。这些曲线在平面上的位置和相互之间的重叠情况,清晰地呈现了集合之间的交集、并集、差集等逻辑关系。饼图(Pie Chart)是一种以圆形为基础,将其分割成不同扇形区域来展示数据比例关系的统计图。整个圆形代表总体,每个扇形的圆心角大小与该部分在总体中所占的百分比成正比,所有扇形的角度之和为360度,即总体比例为100%。
2025-04-02 21:53:21
854
原创 时间数据的可视化
本次实验通过Python实现堆叠柱形图与雷达图的绘制,可以掌握时间数据处理与可视化方法。实验借助历年热狗大胃王比赛成绩数据集,将时间数据作为关键维度进行分析,通过绘制堆叠柱形图和雷达图,直观展示了比赛成绩随时间的变化趋势,并且成功运用Python的pyecharts库实现了极坐标系下的堆叠柱形图可视化,达成了实验目标。实验中使用Page类将两个堆叠柱形图整合到一个HTML文件中,方便对比和展示。实验成功绘制出极坐标系下的堆叠柱形图,直观展示了历年热狗大胃王比赛前三名成绩的变化趋势。
2025-03-31 21:00:49
908
原创 卷积神经网络的可视化
在高层特征图中,特征的抽象程度达到顶峰,模型能够识别更复杂的形状和整体结构,比如猫的轮廓或狗的姿态。整个网格由 8 行 8 列组成,每行和每列都包含了相同数量的特征图,每个方格代表一个神经元的输出,不同的颜色和亮度级别反映了不同特征的强度。总之,随着网络层数的增加,模型对输入数据的理解逐渐深化,能够捕捉到更多的抽象特征和概念化信息。在本实验中,首先选择加载预训练的 ResNet50 模型,这是一个在 ImageNet数据集上经过充分训练的深度学习模型,具有良好的特征提取能力和较高的准确率。
2025-03-21 18:03:04
1145
原创 针对猫狗二分类对预训练模型的选择
由图像可知,VGG16 的训练损失(蓝线)和验证损失(绿色)在训练初期(前20 个 epoch)有明显下降,之后趋于稳定且保持在较低的水平,表明模型在训练集和验证集上的拟合情况良好。ResNet50 的训练损失(橙色)和验证损失(红色)在前期下降幅度较小,但同样在后期趋于稳定,验证损失的变化略高于VGG16,表明其对验证集的拟合稍弱。ResNet50 的训练准确率(橙色)和验证准确率(红色)也显示出良好的趋势,但相较于 VGG16,其验证准确率略低,显示出在特定任务上的性能可能不如 VGG16。
2025-03-17 20:33:54
610
原创 可视化图表总结
雷达图(也称为“蜘蛛图”或“星形图”)是一种用于“展示多维数据”的可视化图表。棒棒糖图是一种数据可视化图表,结合了“点”和“线段”来展示数据的大小。它的名字来源于其形状类似于棒棒糖:每个数据点由一个圆点(棒棒糖的“糖”)和一条线段(棒棒糖的“棒”)组成。它通常以矩阵的形式展示数据,适合用于分析二维数据的分布、关系和模式。它的名字来源于其形状类似于哑铃:每个数据点由两个圆点(哑铃的“铃”)和一条线段(哑铃的“杠”)组成。它通过多个平行的纵轴表示不同的变量,数据点用折线连接,从而展示多维数据之间的关系和模式。
2025-03-17 20:18:01
1413
原创 迁移学习与预训练模型
这种方法的核心思想是,在一个大型数据集上训练的模型已经学习到了一些通用的特征,这些特征可以被迁移到新的、数据量较少的任务上,从而减少训练新模型所需的时间和数据量。预训练模型已经学习了很多通用特征,因此在较少的训练迭代下即可达到较好的性能,同时预训练模型也提供了额外的正则化,帮助模型更好地泛化到新的数据集,避免过拟合。例如,一个在大规模图像数据集上训练的模型,如 ImageNet,可以识别出图像中的通用特征,如边缘、纹理和形状,这些特征在新的图像分类任务中同样有用。
2025-03-16 22:03:06
510
原创 基于卷积神经网络的猫狗分类分类
左侧图表:损失随 epoch 的变化(Loss over epochs)该图表展示了在训练过程中,训练损失(蓝色)和验证损失(橙色)随着epoch 的增加而变化的情况。Dropout 层:在全连接层之前使用 Dropout 层,比例为 0.1,这意味着实际上没有应用 Dropout,这可能会导致过拟合,因为 Dropout 是一种常用的正则化技术,用于防止模型过度拟合训练数据。全连接层 2(fc2):将上一层的输出映射到 1 个神经元,这是新增的全连接层,进一步增加了网络的复杂度。
2025-03-16 21:56:04
787
原创 混淆矩阵(Confusion Matrix)
在机器学习中,混淆矩阵(Confusion Matrix)是一种用于分类问题中的表现度量方法,它可以帮助我们了解模型的预测能力以及不同类别之间的混淆情况。●FP:False Positive,表示实际为负例但被错误地预测为正例的数量;●FN:False Negative,表示实际为正例但被错误地预测为负例的数量;精确度是指所有被预测为正类的实例中有多少是真正属于正类的比例。假阳性率是指所有实际为负类的实例中被误判为正类的比例。假阴性率是指所有实际为正类的实例中被误判为负类的比例。
2025-03-14 19:55:26
421
原创 过拟合的原因及解决方法
(5)对于决策树模型,如果我们对于其生长没有合理的限制,其自由生长有可能使节点只包含单纯的事件数据(event)或非事件数据(no event),使其虽然可以完美匹配(拟合)训练数据,但是无法适应其他数据集;即 early stopping,在模型迭代训练时候记录训练精度(或损失)和验证精度(或损失),倘若模型训练的效果不再提高,比如训练误差一直在降低但是验证误差却不再降低甚至上升,这时候便可以结束模型训练了。(3)假设的模型无法合理存在,或者说是假设成立的条件实际并不成立;(5)降低模型的复杂度。
2025-03-14 19:50:32
353
原创 基于卷积神经网络的Fashionminsit 数据集分类
换句话说,它表示了一个神经元能够“看到”的输入数据的局部区域,其大小取决于神经网络的结构,具体而言,它取决于卷积层的滤波器大小、步幅和填充方式。故该模型在经过一定数量的迭代后,取得了较好的性能指标。卷积核也称为滤波器或特征检测器,在 CNN 中,卷积核是一个小的矩阵或张量,它通过与输入的图像进行卷积操作来提取图像中的特征。即首先有一张图片,然后设置一个卷积核,将这个卷积核顺序对应图片的每一个位置,将然后使其进行点乘,将相乘的结果求和得到一个值即为卷积后图片的像素点的像素值,最终内积完得到一个结果叫特征图。
2025-03-14 19:44:25
563
原创 基于 LeNet5 网络的 minist 数据集分类
这进一步证实了该模型的有效性,因为它不仅在训练数据上取得了较低的误差,而且在未见过的数据上也保持了相对较低的错误率。这意味着模型在训练时表现得更好一些,但在新的、未见过的数据上仍然保持了良好的性能。),一个特征图谱使用同一个卷积核,每个上层节点的值乘以连接上的参数,把这些乘积及一个偏置参数相加得到一个和,把该和输入激活函数,激活函数的输出即是下一层节点的值。年设计的用于手写数字识别的卷积神经网络,当年美国大多数银行就是用它来识别支票上面的手写数字的,它是早期卷积神经网络中最有代表性的实验系统之一。
2025-03-14 19:37:00
783
原创 神经网络中动态调整学习率的方法
factor(float)- 学习率调整倍数(等同于其它方法的 gamma),即学习率更新为 lr=lr * factorpatience(int)- 忍受该指标多少个 step 不变化,当忍无可忍时,调整学习率。eps(float)- 学习率衰减的最小值,当学习率变化小于 eps 时,则不调整 学习率。调整规则为, lr = base_lr*lmbda(self.last_epoch) fine-tune 中十分有用,我们不仅可为不同的层设定不同的学习率,还可以为其设定不同的学习率调整策略。
2025-03-13 16:17:42
1316
原创 基于全连接神经网络的minist数据集分类
随着批处理大小的增加,每轮训练中处理的数据量增加,从而减少了整个训练过程中所需的批次数量。过小或过大的批处理大小都可能导致泛化能力下降,其中过小的批处理大小可能引入过多的噪声,而过大的批处理大小则可能减少梯度估计的多样性,影响模型学习到数据中的复杂模式。训练损失继续降低,但测试损失可能上升,表明模型在测试数据上的性能下降。在训练完成后,利用训练集和测试集对模型进行评估,主要通过改变参数,观察训练集和测试集的损失值和准确率变化和绘制损失和准确率曲线,即模型正确分类图像的比例,以全面了解模型的性能。
2025-03-13 16:04:05
906
原创 D3数据可视化基础
下面我们将在题目一完成的柱形图的基础上稍作修改,做成一个带动态效果的柱形图。的第一个参数是监听的事件,第二个参数是监听到事件后响应的内容,第二个参数是一个函数。这里要用到的叫做弧生成器,能够生成弧的路径,因为饼图的每一部分都是一段弧。本次实践主要介绍D3 一些最基本的使用方法,以及生成一些比较简单的图表。的元素,它可以结合使用直线,曲线等来制作各种不规则的复杂的图形。布局的作用是:将不适合用于绘图的数据转换成了适合用于绘图的数据。),是用于描述二维矢量图形的一种图形格式,是由万维网联盟制定的开放标准。
2025-03-13 15:57:00
511
原创 Tableau数据可视化入门
将数据分为:数字(十进制),数字(整数),字符串,布尔,日期,日期和时间,还有地理类型(如果数据源中有城市,省份的数据可以分配为地理类型)。可以通过拖放式界面快速地生成各种美观的图表、坐标图、仪表盘与报告,并允许用户以自定义的方式设置视图、布局、形状、颜色等,从而通过各种视角来展现业务领域数据及其内在关系。左边列出了超市这个表格下的三个子工作表,当我们选中一个子表时,双击,在右边区域的下部分就会显示子表的数据,例如,表格,文本, Access 数据库,统计文件等,也可以连接数据库服务器,例如。
2025-03-13 14:19:50
614
beb4bf355832707a58b79bf1404cdb86_compress.zip
2024-12-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人