2023年12月20日学习总结

郭小儒

已于 2023-12-21 21:59:31 修改

阅读量906

点赞数 23

分类专栏：每日学习总结文章标签：学习数据库

于 2023-12-20 20:12:12 首次发布

本文链接：https://blog.csdn.net/qq_43403653/article/details/135106860

版权

每日学习总结专栏收录该内容

9 篇文章 0 订阅

订阅专栏

今日to do list：

学习kaggle中store sales中的dart forcasting🎯
大概搜集一个声纹识别的报告（老师给的新项目😭）
学习时不刷手机
okkkkkkkkkkkkkk
开始
目录

1. 时间序列预测- a complete guide

总结一下这篇博客：Time Series Forecasting — A Complete Guide
我想大概再了解一下时间序列预测的基本流程

（1）时序预测有三条规则：

粒度规则（granularity rule）:预测的粒度越小（比如时间尺度是分钟还是小时），预测的准确性越高（分钟的时间尺度准确性就会提高）。因为聚集的数据方差会更小，因此误差也会更小（没太明白这个因果，先过吧，之后再看看）
频率规则（frequency rule）：为了捕捉新的有用的信息，我们需要不断的更新数据，更新数据的频率越高，预测的也就更加准确
地平线规则（horizon rule） ：不要预测太远，我们应该预测一个短期时间的结果

（2）时序数据time series data的组成

在这里插入图片描述
一些专有名词：

level：复杂的时间序列都是由一个base line 和 different components组成的，base line 就是 level
trend：increase or decrease
seasonality（季节性）：数据中暗藏着一种一段时间就会重复一次的模式，就叫做季节性
cyclicity（周期性）：周期性也是一种模式，但和季节性不同就是，季节性是每隔固定的间隔就会重复，但是周期性是不固定的间隔重复
noise：但我们把数据中的level, trend, seasonality, cyclicity删除之后剩下的就是noise，noise是数据中完全随机的干扰

（3）分析的流程

这个是这个博主给的，后续我可以把在kaggle中学到的一些流程加进去，先写一个初步的吧

1. import libraries

首先把需要的包导入进来

2.导入数据并且初步查看数据

导入数据就使用pandas.read_csv就好了，要注意相对路径
初步查看数据可以使用这个函数：basic_eda

def basic_eda(df):
    print("-------------------------------TOP 5 RECORDS-----------------------------")
    print(df.head(5))
    print("-------------------------------INFO--------------------------------------")
    print(df.info())
    print("-------------------------------Describe----------------------------------")
    print(df.describe())
    print("-------------------------------Columns-----------------------------------")
    print(df.columns)
    print("-------------------------------Data Types--------------------------------")
    print(df.dtypes)
    print("----------------------------Missing Values-------------------------------")
    print(df.isnull().sum())
    print("----------------------------NULL values----------------------------------")
    print(df.isna().sum())
    print("--------------------------Shape Of Data---------------------------------")
    print(df.shape)
    print("============================================================================ \n")

3. EDA：exploratory data analysis

内个文章写的不大全我自己先初步总结一下

4. data pre-processing

2.python中的语法学习（纯小白）

（1）pandas中的date_range

函数功能：于生成一个日期范围的序列

full_time_period = pd.date_range(start='2013-01-01', end='2017-08-31', freq='D')
# start和end参数定义了日期范围的开始和结束日期
# freq参数定义了日期范围的频率
# 生成一个包含2013年1月1日至2017年8月31日之间每天日期的pandas.DatetimeIndex对象

3. 学习darts库

4.声纹识别调研

声纹识别研究现状

声纹识别搜索关键词：Speaker Recognition/Identification/Verification
声纹识别有三个阶段：

machine learning：最佳基线模型iVector
deep learning：bottleneck feature、d-vector、x-vector、j-vector
attention mechanism、Learning to rank

声纹识别的主要问题在于语音时长、文本无关、开集比对、背景噪声等问题上。目前基于d-vector、x-vector的深度学习模型和TE2E/GE2E等的损失函数设计在短时长上比较占优势。传统方法的state-of-the-art是i-vector，采用pLDA信道补偿算法，所有基于深度学习的模型都会引用ivector的ERR作为baseline进行比对。以前的方法有UBM-GMM和JFA信道补偿，但是需要大量的不同信道的语料样本。传统方法的相关开源框架有Kaldi、ALIZE、SIDEKIT、pyannote-audio等。深度学习的方法有d-vector、x-vector、j-vector（文本有关）以及结合E2E损失函数的模型。还有基于GhostVlad和直接基于wave信号的SINCNET。

声纹识别技术指标

参考链接：添加链接描述

一些开源链接（之后逐个排查哈）

http://www-lium.univ-lemans.fr/sidekit/
https://alize.univ-avignon.fr/
http://www.kaldi-asr.org/
https://github.com/rajathkmp/speaker-verification
https://github.com/wangleiai/dVectorSpeakerRecognition
https://github.com/Janghyun1230/Speaker_Verification
https://github.com/pyannote/pyannote-audio
https://github.com/WeidiXie/VGG-Speaker-Recognition
https://github.com/mravanelli/SincNet

resemblyzer
这个里面有一个demo 02识别了一个youtube视频中的三个人的声音
有一个演示视频，感觉效果很不错
在这里插入图片描述