今日to do list:
- 学习kaggle中store sales中的dart forcasting🎯
- 大概搜集一个声纹识别的报告(老师给的新项目😭)
- 学习时不刷手机
okkkkkkkkkkkkkk
开始
1. 时间序列预测- a complete guide
总结一下这篇博客:Time Series Forecasting — A Complete Guide
我想大概再了解一下时间序列预测的基本流程
(1)时序预测有三条规则:
- 粒度规则(granularity rule):预测的粒度越小(比如时间尺度是分钟还是小时),预测的准确性越高(分钟的时间尺度准确性就会提高)。因为聚集的数据方差会更小,因此误差也会更小(没太明白这个因果,先过吧,之后再看看)
- 频率规则(frequency rule):为了捕捉新的有用的信息,我们需要不断的更新数据,更新数据的频率越高,预测的也就更加准确
- 地平线规则(horizon rule) :不要预测太远,我们应该预测一个短期时间的结果
(2)时序数据time series data的组成
一些专有名词:
- level:复杂的时间序列都是由一个base line 和 different components组成的,base line 就是 level
- trend:increase or decrease
- seasonality(季节性):数据中暗藏着一种一段时间就会重复一次的模式,就叫做季节性
- cyclicity(周期性):周期性也是一种模式,但和季节性不同就是,季节性是每隔固定的间隔就会重复,但是周期性是不固定的间隔重复
- noise:但我们把数据中的level, trend, seasonality, cyclicity删除之后剩下的就是noise,noise是数据中完全随机的干扰
(3)分析的流程
这个是这个博主给的,后续我可以把在kaggle中学到的一些流程加进去,先写一个初步的吧
1. import libraries
首先把需要的包导入进来
2.导入数据并且初步查看数据
导入数据就使用pandas.read_csv就好了,要注意相对路径
初步查看数据可以使用这个函数:basic_eda
def basic_eda(df):
print("-------------------------------TOP 5 RECORDS-----------------------------")
print(df.head(5))
print("-------------------------------INFO--------------------------------------")
print(df.info())
print("-------------------------------Describe----------------------------------")
print(df.describe())
print("-------------------------------Columns-----------------------------------")
print(df.columns)
print("-------------------------------Data Types--------------------------------")
print(df.dtypes)
print("----------------------------Missing Values-------------------------------")
print(df.isnull().sum())
print("----------------------------NULL values----------------------------------")
print(df.isna().sum())
print("--------------------------Shape Of Data---------------------------------")
print(df.shape)
print("============================================================================ \n")
3. EDA:exploratory data analysis
内个文章写的不大全我自己先初步总结一下
4. data pre-processing
2.python中的语法学习(纯小白)
(1)pandas中的date_range
函数功能:于生成一个日期范围的序列
full_time_period = pd.date_range(start='2013-01-01', end='2017-08-31', freq='D')
# start和end参数定义了日期范围的开始和结束日期
# freq参数定义了日期范围的频率
# 生成一个包含2013年1月1日至2017年8月31日之间每天日期的pandas.DatetimeIndex对象
3. 学习darts库
4.声纹识别调研
声纹识别研究现状
声纹识别搜索关键词:Speaker Recognition/Identification/Verification
声纹识别有三个阶段:
- machine learning:最佳基线模型iVector
- deep learning:bottleneck feature、d-vector、x-vector、j-vector
- attention mechanism、Learning to rank
声纹识别的主要问题在于语音时长、文本无关、开集比对、背景噪声等问题上。目前基于d-vector、x-vector的深度学习模型和TE2E/GE2E等的损失函数设计在短时长上比较占优势。传统方法的state-of-the-art是i-vector,采用pLDA信道补偿算法,所有基于深度学习的模型都会引用ivector的ERR作为baseline进行比对。以前的方法有UBM-GMM和JFA信道补偿,但是需要大量的不同信道的语料样本。传统方法的相关开源框架有Kaldi、ALIZE、SIDEKIT、pyannote-audio等。深度学习的方法有d-vector、x-vector、j-vector(文本有关)以及结合E2E损失函数的模型。还有基于GhostVlad和直接基于wave信号的SINCNET。
声纹识别技术指标
参考链接:添加链接描述
一些开源链接(之后逐个排查哈)
http://www-lium.univ-lemans.fr/sidekit/
https://alize.univ-avignon.fr/
http://www.kaldi-asr.org/
https://github.com/rajathkmp/speaker-verification
https://github.com/wangleiai/dVectorSpeakerRecognition
https://github.com/Janghyun1230/Speaker_Verification
https://github.com/pyannote/pyannote-audio
https://github.com/WeidiXie/VGG-Speaker-Recognition
https://github.com/mravanelli/SincNet
resemblyzer
这个里面有一个demo 02识别了一个youtube视频中的三个人的声音
有一个演示视频,感觉效果很不错