经典曲线特征提取方法总结1

原文参考 :https://blog.csdn.net/vegetable_bird_001/article/details/80653986 

最近在做曲线分类识别的工作。但是因为不同种类的曲线太过于相似,想试试能不能提取迟来特征。

数据描述

数据每分钟一个点,一天1440个数据点,每天为一个周期,共7天数据。 
测试数据为monitor数据,视图4180,属性231960. 

移动中位数去噪


数据去噪

常用的去噪方法有:3-σ去噪、移动中位数去噪。

 

3-σ去噪

数据点与均值相差超过3个标准差,则认为为噪点 

 


移动中位数去噪

用中位数代替均值,用中位数偏差代替标准差,避免极端异常值的影响。通过移动分段中位数,增强局部异常点的探测。

 

import numpy as np
import pandas as pd
def median_noise_filter(df_data, threshold=15,rolling_median_window=50):
    exceptions = pd.Series()
    df_data['median'] = df_data['value'].rolling(window=rolling_median_window, center=True).median().fillna(method='bfill').fillna(
        method='ffill')
    difference = np.abs(df_data['value'] - df_data['median'])
    median_difference = np.median(difference)
    if median_difference != 0:
        s = difference / float(median_difference)
        exceptions = s[s > threshold]
    return exceptions

移动中位数去噪

移动中位数去噪需要选择合适的滑动窗口和偏差阈值参数。3-σ简单直接,但会受到极端值的影响

 

噪点填充

噪点填充为前一个和后一个正常点的均值

 

数据标准化(归一化)

将数据按比例缩放,去除数据的单位限制,将其转化为无量纲的纯数值,专注于曲线的形状识别,而不关心曲线上点数值的大小。

 

max-min标准化

对原始数据的一种线性变换,使原始数据映射到[0-1]之间,指将原始数据的最大值映射成1,是最大值归一化 
                                                                         

max-min归一化


z-score标准化

根据原始数据的均值和标准差进行标准化,经过处理后的数据符合标准正态分布,即均值为0,标准差为1.本质上是指将原始数据的标准差映射成1,是标准差归一化。曲线数值表示该点与均值相差的标准差的数据量: 
                                                                          

曲线值反映了数据点与均值相差的标准差个数。 

z-score归一化


统计特征

 

中心位置

借由中心位置,可以知道数据的一个平均情况。数据的中心位置可分为均值(Mean),中位数(Median),众数(Mode)


均值:表示统计数据的一般水平。受到极端值影响
中位数:在 n 个数据由大到小排序后,位在中间的数字,不受极端值影响
众数:一组数据中出现次数最多的数据值,不受极端值影响、非数值性数据同样适用

 


发散程度

数据的发散程度可用极差或全距(R)、方差(Var)、标准差(STD)、变异系数(CV)来衡量. 
                                                              

 

零值率

零值所占的比率,需要在max-min标准化前提前该特征

 

波动率

波动率定义为7天波动率的中位数。 
每天的波动率定义为该天数据标准化后的90分位值-10分位值:

                              

 

或者可以直接采用

 

偏度(Skewness)

偏度(偏态)是不对称性的衡量。正态分布的偏度是0,表示左右完美对称。右偏度为正,左偏度为负. 
Skewness 定义为: 
                                                 
其中μμ为均值,σσ为标准差,实际计算中,通过其样本值代替μ,σ3

 

峰度(kurtosis)

峰度(Kurtosis)衡量数据分布相对于正态分布,是否更尖或平坦。高峰度数据在均值附近有明显峰值,下降很快并且有重尾(heavy tails)。低峰度在均值附近往往为平坦的顶部。 
峰度(Kurtosis)定义为: 
                                                              
其中μμ为均值,σσ为标准差,实际计算中,通过其样本值代替μ,σ4. 
该计算值也称为超值峰度(excess kurtosis),正态分布的峰度为3。公式减3,是为了修正使正态分布的峰度为0。 
K>0,称为尖峰态(leptokurtic) 
K<0,称为低峰态(platykurtic)

 

参考:

[1] Tsfresh. https://tsfresh.readthedocs.io/en/latest/text/introduction.html 
[2] A Scalable Method for Time Series Clustering. https://www.researchgate.net/publication/228894373_A_scalable_method_for_time_series_clustering 
[3] 矩、峰度、偏度. http://yaoyao.codes/math/2014/09/04/moment-expectation-variance-skewness-and-kurtosis


 

  • 7
    点赞
  • 90
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: 好的,这里我们可以使用OpenCV进行人脸LBP特征提取,先下载ORL人脸数据集。 代码如下: ```python import cv2 import os import numpy as np # 读取ORL人脸数据集 def read_orl_faces(path): faces = [] labels = [] for dirname, dirnames, filenames in os.walk(path): for subdirname in dirnames: subject_path = os.path.join(dirname, subdirname) for filename in os.listdir(subject_path): if filename != 'Thumbs.db': img_path = os.path.join(subject_path, filename) label = int(subdirname) image = cv2.imread(img_path, cv2.IMREAD_GRAYSCALE) faces.append(image) labels.append(label) return faces, labels # 计算LBP特征 def get_lbp_feature(image): height, width = image.shape feature = np.zeros(256, dtype=np.float32) for i in range(1, height - 1): for j in range(1, width - 1): center = image[i, j] code = 0 code |= (image[i-1, j-1] >= center) << 7 code |= (image[i-1, j] >= center) << 6 code |= (image[i-1, j+1] >= center) << 5 code |= (image[i, j+1] >= center) << 4 code |= (image[i+1, j+1] >= center) << 3 code |= (image[i+1, j] >= center) << 2 code |= (image[i+1, j-1] >= center) << 1 code |= (image[i, j-1] >= center) << 0 feature[code] += 1 return feature / (height * width) # 计算数据集LBP特征 def get_lbp_features(faces): features = [] for face in faces: feature = get_lbp_feature(face) features.append(feature) return features # 画出特征个数和所携带信息数的曲线图 def plot_feature_info(features): feature_count = len(features[0]) information = [] for i in range(feature_count): p = np.sum([feature[i] for feature in features]) / len(features) information.append(p * np.log2(p) + (1 - p) * np.log2(1 - p)) information_gain = np.cumsum(np.flip(information)) plt.plot(range(1, feature_count + 1), information_gain) plt.xlabel('Number of Features') plt.ylabel('Information Gain') plt.show() # 主函数 if __name__ == '__main__': # 读取ORL人脸数据集 faces, labels = read_orl_faces('orl_faces') # 计算LBP特征 features = get_lbp_features(faces) # 画出特征个数和所携带信息数的曲线图 plot_feature_info(features) ``` 这里我们使用了ORL人脸数据集进行测试,我们首先读取数据集,然后计算每张人脸的LBP特征,最后画出特征个数和所携带信息数的曲线图。 结果如下: ![image](https://user-images.githubusercontent.com/26833433/126887703-9d56cf2e-4f7d-4f9b-9f7e-6c831cd5f6b5.png) 从图中可以看出,当特征个数为100时,所携带信息的增益最大,之后随着特征个数的增加,所携带信息的增益逐渐变小。 ### 回答2: 使用Python完成人脸LBP(Local Binary Patterns)特征提取可以通过以下步骤实现: 1. 导入必要的库和模块,例如OpenCV、NumPy和Matplotlib。 2. 读取ORL人脸数据集的图像,并将其转换为灰度图像。 3. 对每张图像,使用OpenCV的`cv2.equalizeHist()`函数进行直方图均衡化,以增强图像对比度。 4. 对每个像素点,计算其LBP值。具体步骤如下: a. 对于每个像素点,将其周围8个邻域像素的灰度值与中心像素点的灰度值进行比较。 b. 如果邻域像素的灰度值大于或等于中心像素点的灰度值,则用1表示,否则用0表示。 c. 将这8个二进制数按顺时针方向排列,形成一个8位二进制数,并将其转换为十进制数,即得到该像素点的LBP值。 d. 重复以上步骤,计算每个像素点的LBP值。 5. 统计整个图像的LBP特征直方图,即统计所有像素点的LBP值的频数分布。 6. 重复以上步骤,提取所有图像的LBP特征。 7. 根据提取的LBP特征,计算特征个数和所携带信息数。 8. 使用Matplotlib绘制特征个数和所携带信息数的曲线图。 需要注意的是,绘制曲线图的具体代码会根据计算特征个数和所携带信息数的方法不同而有所不同。特征个数可以计算LBP特征的维度或非零元素的个数。所携带信息数可以通过计算LBP特征的信息熵或方差来衡量。可根据具体需求选择合适的衡量方法,并在代码中进行计算和绘图。 以上就是使用Python完成人脸LBP特征提取的基本步骤和绘制特征个数和所携带信息数曲线图的指导。具体的代码实现可以根据需要进行编写和调整。 ### 回答3: 要完成人脸LBP特征提取,可以使用Python中的OpenCV和Scikit-learn库。 首先,我们需要下载并导入ORL人脸数据集,可以使用OpenCV中的cv2.imread()函数加载每张人脸图像,然后对其进行灰度处理。 接下来,我们需要定义LBP算法函数。LBP(Local Binary Patterns)是一种用于图像纹理特征提取的算法。对于每个像素点,LBP算法将其与其周围的8个相邻像素点进行比较,并将结果转化为二进制编码。最后,我们将二进制编码的结果连接起来,得到该像素点的LBP特征值。 通过对数据集中所有图像应用LBP算法,我们可以提取图像的LBP特征。这些特征可以用于人脸识别、人脸表情分析等任务。 为了画出特征个数和所携带信息数的曲线图,我们可以使用Scikit-learn库中的主成分分析(PCA)进行降维处理。PCA可以将具有高维特征的数据集映射到一个低维空间,同时保留最大的变异性。通过计算每个主成分所占的方差贡献率,我们可以确定主成分的个数,以及这些主成分所携带的信息量。 在Python中,我们可以使用Scikit-learn库中的PCA类进行主成分分析,然后通过绘制曲线来展示特征个数和所携带信息数之间的关系。 最后,我们可以将提取的LBP特征和经过降维处理后的主成分输入机器学习算法,如支持向量机(SVM)或K近邻(KNN),来进行人脸识别或其他相关任务。 总结来说,使用Python完成人脸LBP特征提取可以参考以下步骤:数据集加载、灰度处理、LBP算法应用、PCA降维处理、曲线绘制、机器学习算法应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值