2023年12月20日学习总结

今日to do list:

1. 时间序列预测- a complete guide

总结一下这篇博客:Time Series Forecasting — A Complete Guide
我想大概再了解一下时间序列预测的基本流程

(1)时序预测有三条规则:

  • 粒度规则(granularity rule):预测的粒度越小(比如时间尺度是分钟还是小时),预测的准确性越高(分钟的时间尺度准确性就会提高)。因为聚集的数据方差会更小,因此误差也会更小(没太明白这个因果,先过吧,之后再看看
  • 频率规则(frequency rule):为了捕捉新的有用的信息,我们需要不断的更新数据,更新数据的频率越高,预测的也就更加准确
  • 地平线规则(horizon rule) :不要预测太远,我们应该预测一个短期时间的结果

(2)时序数据time series data的组成

在这里插入图片描述
一些专有名词:

  • level:复杂的时间序列都是由一个base line 和 different components组成的,base line 就是 level
  • trend:increase or decrease
  • seasonality(季节性):数据中暗藏着一种一段时间就会重复一次的模式,就叫做季节性
  • cyclicity(周期性):周期性也是一种模式,但和季节性不同就是,季节性是每隔固定的间隔就会重复,但是周期性是不固定的间隔重复
  • noise:但我们把数据中的level, trend, seasonality, cyclicity删除之后剩下的就是noise,noise是数据中完全随机的干扰

(3)分析的流程

这个是这个博主给的,后续我可以把在kaggle中学到的一些流程加进去,先写一个初步的吧

1. import libraries

首先把需要的包导入进来

2.导入数据并且初步查看数据

导入数据就使用pandas.read_csv就好了,要注意相对路径
初步查看数据可以使用这个函数:basic_eda

def basic_eda(df):
    print("-------------------------------TOP 5 RECORDS-----------------------------")
    print(df.head(5))
    print("-------------------------------INFO--------------------------------------")
    print(df.info())
    print("-------------------------------Describe----------------------------------")
    print(df.describe())
    print("-------------------------------Columns-----------------------------------")
    print(df.columns)
    print("-------------------------------Data Types--------------------------------")
    print(df.dtypes)
    print("----------------------------Missing Values-------------------------------")
    print(df.isnull().sum())
    print("----------------------------NULL values----------------------------------")
    print(df.isna().sum())
    print("--------------------------Shape Of Data---------------------------------")
    print(df.shape)
    print("============================================================================ \n")
3. EDA:exploratory data analysis

内个文章写的不大全我自己先初步总结一下

4. data pre-processing

2.python中的语法学习(纯小白)

(1)pandas中的date_range

函数功能:于生成一个日期范围的序列

full_time_period = pd.date_range(start='2013-01-01', end='2017-08-31', freq='D')
# start和end参数定义了日期范围的开始和结束日期
# freq参数定义了日期范围的频率
# 生成一个包含2013年1月1日至2017年8月31日之间每天日期的pandas.DatetimeIndex对象

3. 学习darts库

4.声纹识别调研

声纹识别研究现状

声纹识别搜索关键词:Speaker Recognition/Identification/Verification
声纹识别有三个阶段:

  • machine learning:最佳基线模型iVector
  • deep learning:bottleneck feature、d-vector、x-vector、j-vector
  • attention mechanism、Learning to rank
    在这里插入图片描述
    声纹识别的主要问题在于语音时长、文本无关、开集比对、背景噪声等问题上。目前基于d-vector、x-vector的深度学习模型和TE2E/GE2E等的损失函数设计在短时长上比较占优势。传统方法的state-of-the-art是i-vector,采用pLDA信道补偿算法,所有基于深度学习的模型都会引用ivector的ERR作为baseline进行比对。以前的方法有UBM-GMM和JFA信道补偿,但是需要大量的不同信道的语料样本。传统方法的相关开源框架有Kaldi、ALIZE、SIDEKIT、pyannote-audio等。深度学习的方法有d-vector、x-vector、j-vector(文本有关)以及结合E2E损失函数的模型。还有基于GhostVlad和直接基于wave信号的SINCNET。

声纹识别技术指标

参考链接:添加链接描述

一些开源链接(之后逐个排查哈)

http://www-lium.univ-lemans.fr/sidekit/
https://alize.univ-avignon.fr/
http://www.kaldi-asr.org/
https://github.com/rajathkmp/speaker-verification
https://github.com/wangleiai/dVectorSpeakerRecognition
https://github.com/Janghyun1230/Speaker_Verification
https://github.com/pyannote/pyannote-audio
https://github.com/WeidiXie/VGG-Speaker-Recognition
https://github.com/mravanelli/SincNet

resemblyzer
这个里面有一个demo 02识别了一个youtube视频中的三个人的声音
有一个演示视频,感觉效果很不错
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

郭小儒

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值