数据分析
文章平均质量分 62
Satisfying
#自律女孩养成记#
#立刻行动派#
外表平静似水,内心坚定如刚。
展开
-
【20211106】【数据分析】hist 和 bar 的区别
hist 和 bar 的区别为:意义不同、创建图形不同、参数不同、正则化不同。一、意义不同 1. hist 是画(频率分布)直方图,x 轴表示这一列数据的种类,y 轴表示该类别出现的次数(频数);bar 是画柱状图。 2. hist 直方图展示的是数据的分布,bar 柱状图展示的数据本身的大小。二、创建的图形不同1. hist 是用来创建一个直方图的 matplotlib 函数;2. bar 是用来创建一个二维条形图的 ma...原创 2021-11-06 14:55:25 · 6408 阅读 · 2 评论 -
【20210914】【数据分析】使用Python对数据进行标准化(归一化)
数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位。为了消除指标之间的量纲影响,需要进行数据标准化处理,以增加数据之间的可比性。1. min-max标准化(Min-Max Normalization) 又叫离差标准化,是对原始数据的线性变换,使结果映射到 [0, 1] 之间,转换函数为:这种方法的缺陷就是:当有新数据加入时,可能会导致 max 和 min 的变化,需要重新进行标准化。import nu...原创 2021-09-14 09:44:14 · 3498 阅读 · 0 评论 -
【20210825】【数据分析】两个向量做相关性分析时,需不需要统一量纲?
对这个问题的思考源于机器学习中的特征工程,加工了 24 维特征,对此想要分析特征和特征之间、特征和标签之间的相关性,但不同维度的特征物理意义不尽相同,就在思考:需要先对特征归一化、标准化吗?先放结论:不需要~1. 没有做任何操作的特征相关性分析2. 做了 z-score 标准化的特征相关性分析3. 做了 max-min 归一化的特征相关性分析不敢说十分相似,只能说一模一样!网上见到评论:......原创 2021-08-25 16:14:06 · 4681 阅读 · 3 评论 -
【20210805】【数据分析】标称型数据和数值型数据
监督学习使用的目标变量一般有两种:标称型数据 和 数值型数据。1. 标称型数据 即离散值。只在有限目标集中取值,如:”真“ 或 ”假“(主要用于分类)。2. 数值型数据 即连续值。可以从无限的数值集合中取值,如:0.1、45.5 等(主要用于回归)...原创 2021-08-05 17:49:04 · 1600 阅读 · 0 评论 -
【20210803】【数据分析】评价两个向量之间的相关性指标
(参考:向量的相似性度量)一、问题求下面两个向量的相似性:a = (x11, x12, x13, ..., x1n)b = (x21, x22, x23, ..., x2n)二、方法1. 欧氏距离(Eculidean Distance)欧氏距离是最简单的距离计算公式,源于两点间距离。 向量表示方式为:2. 曼哈顿距离(Manhattan Distance) 曼哈顿距离也就是...原创 2021-08-03 18:57:36 · 8054 阅读 · 0 评论 -
【20210731】【数据分析】记录一下这几天采集呼吸率数据进行测试的心得~
背景是这样的,现需要采集呼吸率数据进行准确率测试。一、使用过的测试方案:1. 使用节拍器的频率作为真值;(测试人员很难完全按照节拍器频率呼吸,所以真值并不真,方案弃)2. 使用力康的设备采到的呼吸率 BPM 作为真值;(力康设备采到的数据也不够真,方案弃)3. 使用电机工作 BPM 作为真值。(工作频率设置好之后,误差很小,且工作稳定,方案采用)二、心得 1.......原创 2021-07-31 14:14:26 · 490 阅读 · 0 评论 -
【20210719】【数据分析】使用 Matlab,绘制 Bland-Altman 图,对呼吸率、心率进行误差分析
一、数据格式 数据文件有四列: 第一列:呼吸率的误差(测量值-真值); 第二列:呼吸率的绝对误差(测量值与真值之差的绝对值); 第三列:心率的误差(测量值-真值); 第四列:心率的绝对误差(测量值与真值之差的绝对值);二、误差分析方法 通过统计分析,除了给出 误差/绝对误差 的【均值】、【方差】、【分布直方图】之外,还给出了【测量值和真值的相关性系数】,并通过绘制【Bland-Altman.........原创 2021-07-19 13:52:24 · 3780 阅读 · 6 评论
分享