数据分析1 重复精度分析

读取测量值,计算周期,将数据分组,分析数据重复精度及分布:


clear;

dg1= xlsread('0808','C:C');
fs=200;
nfft= 2^nextpow2(length(dg1));%找出大于y的个数的最大的2的指数值(自动进算最佳FFT步长nfft)%nfft=1024;%人为设置FFT的步长nfft
y=dg1-mean(dg1);%去除直流分量
y_ft=fft(y,nfft);%对y信号进行DFT,得到频率的幅值分布
y_p= y_ft.*conj(y_ft)/nfft;%conj()函数是求y函数的共轭复数,实数的共轭复数是他本身。
y_f= fs/2*linspace(0,1,nfft/2);%变换后对应的频率的序列,% y_p=y_ft.*conj(y_ft)/nfft;%conj()函数是求y函数的共轭复数,实数的共轭复数是他本


y_pp=10*log10(y_p(1:nfft/2));
pmax= y_pp(find(diff(sign(diff(y_pp)))==-2)+1);
fmax= y_f(find(diff(sign(diff(y_pp)))==-2)+1);
[ppmax,findex]=sort(pmax,'descend');
ffmax=fmax(findex);


figure(1),
plot(y_f,10*log10(y_p(1:nfft/2)));axis([0,0.5,-10,inf]);grid on,xlabel('频率(Hz)');ylabel('功率谱密度(dB)');title('功率谱密度');
for i=1:10
text(ffmax(1,i),ppmax(i,1),[num2str(1/ffmax(1,i)) 's'],'FontSize',16,'Color',[1 0 0]);
end


%semilogy(y_f,y_p(1:nfft/2));axis([0,0.5,0.1,1000000]) %y对数坐标
 
[V,T1]=max(y_p(1:nfft/2)); %求出赋值最大值及对应小标
text(y_f(T1),y_p(T1),['T=' num2str(1/y_f(T1))],'FontSize',16,'Color',[1 0 0]);
T=1/y_f(T1);%求出数据周期


cycle=round(T*fs)-1; %求出数据周期对应点数,需要浮点数转化为整数
for xx=1:1:120
    test(xx,:)=dg1([((xx-1)*cycle+1):cycle*xx],1);
end


for aa=1:10
times=10*aa;
error(aa,:)=max(test([1:times],:))-min(test([1:times],:));
end
stdr=std(test,0,1); %标准差
meanr=mean(test,1); %均值


clear nfft y y_p y_f y_ft T1 xx aa times;


t=0:1/fs:(1/fs)*(cycle-1);
figure(2);
subplot(3,1,2);plot(t,error([1,5,10],:));legend('10 Times','50 Times','100 Times');title('Running Repeatablity Test');xlabel('Stepper running time (s)');ylabel('Repeatablity (mm)')
subplot(3,1,1);plot(t,test([1,60,100],:));title('Running Curve');xlabel('Stepper running time (s)');ylabel('Laser measuring result 100 cycles (mm)');
text(35,1,['T=' num2str(cycle/fs) 's'],'FontSize',16,'Color',[1 0 0]);
subplot(3,1,3);plot(t,stdr); title('120 times ruuning std');xlabel('Stepper running time (s)');ylabel('Laser measuring result std (mm)');
[~,tindex]=max(stdr);text(t(tindex),stdr(tindex),['3\sigma=' num2str(3*stdr(tindex))],'FontSize',16,'Color',[1 0 0]);


figure(3);
subplot(3,1,1);plot(test(:,find(t==21.4)),'g+');
subplot(3,1,2);sfpin(test(:,find(t==21.4)));
%[a,b]=hist(test(:,find(t==21.88)));
%bar(b,a/sum(a));
subplot(3,1,3);qqs(test(:,find(t==21.4)));
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大数据中的数据预处理技术分析 作者:王梓吉 来源:《中国科技纵横》2019年第02期 摘 要:信息技术的快速发展,为数据的采集和分析提供了有力的技术基础,作为数学与计 算机学科的交叉方向,大数据技术的发展和应用价值已经得到人们的认可。本文结合大 数据技术的数据预处理需求,从数学角度阐述了数据预处理的方法,从分析结果可知, 选取科学合理的数学处理算法可以为数据价值挖掘提供高质量的数据源,这也是今后数 据学科所要解决的关键科学问题。 关键词:大数据;预处理;抽象数据;归一化处理 中图分类号:TP311.13 文献标识码:A 文章编号:1671-2064(2019)02- 0028-02 随着大数据技术的发展与应用,对数据处理的需求越来越多,其应用价值也十 分明显,大数据处理技术是应用数学与计算机技术的一个交叉领域,其主要目的是将大 量数据进行深度分析,进而实现对其潜在的价值挖掘[1]。但是在数据采集过程中,由于 设备精度、环境影响以及人为失误等造成一些数据属性缺失、记录错误、噪音污染等, 所得到的质量不高的数据,被行业称为"脏数据"。如果不对这些数据进行提前处理,会 导致后续的数据挖掘与分析不够精确,以至于影响数据分析结果的应用[1-2]。 因此,對数据预处理是大数据技术应用的关键环节。本文正是基于实际存在的 "脏数据"问题,从数学应用的严谨性出发,深入地阐述数据预处理方法,为得到科学合 理的数据分析结果奠定技术基础。 1 大数据技术 1.1 概念 在《大数据时代》中所提到的大数据技术,是指不用传统的随机理论进行数据分 析,而采用对所有数据进行统一的分析处理的方法,这给数据处理带来了挑战,主要集 中在数据量很大,要求采用处理速度快的一些数学处理方法[1]。 信息技术是大数据时代的基础,该技术的发展与应用已经使得众多领域发生一 些技术革命。由于实际生产生活中,产生并积累了大量的数据,而数据又潜在地表征了 过程的特性,可见,一旦通过科学合理的数据处理方法,其内在价值将会得到挖掘,进 而用于优化、控制与决策,深层次地发挥数据的价值。大数据由于其样本量大、精准度 高、科学性优异,同时,大数据处理技术具有高速度、多样化、高价值和真实性等特点 ,已经为人们所接受,并逐步得到应用。 1.2 大数据技术的处理流程 按照现有通常的大数据处理技术,一般的数据处理流程如图1所示[1-3]。 从图1中可知,第一步是数据的采集与收集,这是数据大数据的源端,主要依赖 于信息技术,如传感器网络实现对数据的采集。第二步是数据的预处理,由于现实采集 的数据存在诸如缺陷、不规则、抽象性等问题,必须经过预处理后才能进行计算分析, 这也是本文的重点研究内容。第三步是对得到的规则的数据矩阵进行存储。第四步是数 据的分析,借助特定模型进行数据价值分析。第五步是对结果进行展示,也是数据价值 表现的关键步骤。 从整个大数据的处理流程来看,数据预处理技术的水平决定了数据的真实性、 完整性,对后续的数据分析起到十分关键的作用,在预处理环节用到很多的数学方法, 本文接着重点阐述大数据预处理环节的相关数学变换与数学分析方法。 2 数据预处理技术分析[3] 2.1 需求分析 在大数据背景下,数据的收集过程中会产生诸多问题,例如测量收集设备精度 不足、数据传输过程受到环境干扰、数据内有环境噪音、手工输入的误操作等多种情况 。将会形成引言中所提到的"脏数据"。这些原始数据,将存在如下系列问题。 (1)杂乱。数据仅存放于数据集中,缺乏统一性的量化标准与转化标准,不利 于数据的量化可视化分析。例如学校内有关学生对老师喜爱程度的调查中,"喜爱"、"一 般"等名词便无法用于数据分析与处理。这类数据通常将通过归一化处理进行量化与分类 整理。(2)重复。数据间拥有多个相同的物理描述与性质,特别的,对于要分析的数据 方向存在重叠,将构成数据的重复与冗余数据的堆积。这将不利于样本的分析。例如在 数据输入时,对同一实体输入了多次便会导致数据重复。(3)模糊。在实验模型或实际 系统的设计中不可避免的存在一些漏洞与缺陷,导致实体属性不清晰或错乱。(4)缺失 。数据传输或记录过程中出现错误,导致数据缺失。 由于数据集的复杂性,数据的正确性及有效性将极大地影响挖掘学习的准确性 和有效性。所以对数据进行预处理就成为了分析前的重要工作。数据的预处理方法多种 多样,例如数据清洗、数据选样、数据变换等。 2.2 数据清洗 现实中采集到的数据由于存在各种问题,一般都是不能直接用于价值分析的, 这些不确定数据将严重影响大数据数据分析的准确性,严重时更会使分析结果失去实际 意义,因此需要按照特定目的进行预处理。而数据清洗主要是针对那些不符合规则数据 进行处理,如重复数据项、噪声数据项和缺失数据项等,对应的处理方法如图2所示。 重复

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值