xhrt
码龄3年
关注
提问 私信
  • 博客:91,039
    91,039
    总访问量
  • 44
    原创
  • 49,089
    排名
  • 105
    粉丝
  • 0
    铁粉
  • 学习成就
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:四川省
  • 加入CSDN时间: 2021-09-09
博客简介:

m0_61688615的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    4
    当前总分
    517
    当月
    6
个人成就
  • 获得182次点赞
  • 内容获得9次评论
  • 获得594次收藏
  • 代码片获得1,261次分享
创作历程
  • 5篇
    2024年
  • 27篇
    2023年
  • 13篇
    2022年
  • 3篇
    2021年
成就勋章
兴趣领域 设置
  • 大数据
    flink
  • 人工智能
    opencv语音识别计算机视觉机器学习深度学习神经网络自然语言处理tensorflowpytorch图像处理nlp数据分析
创作活动更多

HarmonyOS开发者社区有奖征文来啦!

用文字记录下您与HarmonyOS的故事。参与活动,还有机会赢奖,快来加入我们吧!

0人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 收藏
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
搜TA的内容
搜索 取消

分类评估指标:准确率、精确度、召回率、F1分数、Roc详解

准确率:数据集正负样本平衡时可用。精确率:当误判正类样本代价较高时使用(正常邮件被误分类为垃圾邮件)。召回率:当漏判正类样本代价较高时使用(疾病检测中,不希望漏筛病例)。F1 分数:当需要在精确率和召回率之间取得平衡时使用,尤其适合样本类别不均衡的情况。
原创
发布博客 2024.09.18 ·
1543 阅读 ·
27 点赞 ·
0 评论 ·
12 收藏

极大似然估计和最大参数后验估计

x表示某一个具体的数据;θ表示模型的参数。,这个函数叫做(probability function),它描述对于不同的样本点x,其出现概率是多少。,这个函数叫做(likelihood function), 它描述对于不同的模型参数,出现x这个样本点的概率是多少。
原创
发布博客 2024.03.19 ·
536 阅读 ·
5 点赞 ·
0 评论 ·
3 收藏

用交叉熵(cross entropy)计算点互信息PMI

最近读了论文Surface Form Competition: Why the Highest Probability Answer Isn't Always Right,在读代码时,发现论文对于点互信息的计算,是通过交叉熵进行的。通过函数cross_entropy_list(),得到H(y|x),H(y|domain),H(y)。注意,我之前一直以为x和(x,domain)是两回事,通过代码发现其实x就是(x,domian)。这里H(y)的计算,是以常数序列25为输入计算的。对于LM,我们想要计算。
原创
发布博客 2024.03.19 ·
627 阅读 ·
10 点赞 ·
0 评论 ·
6 收藏

信息熵、KL散度、交叉熵、互信息、点互信息

概率论基础知识的介绍
原创
发布博客 2024.03.05 ·
2023 阅读 ·
33 点赞 ·
0 评论 ·
25 收藏

MEMGPT

1、因为安装环境时是使用的pip install pymemgpt,所以当使用memgpt run运行时,实际上运行的是。2、输入命令which memgpt,可以查到memgpt命令对应运行的脚本文件的路径。如果想要修改代码,也要在上述目录的文件中修改代码,才会对memgpt run起作用。总的来看,这段代码也只是调用了main.py中的app函数。
原创
发布博客 2024.03.05 ·
391 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

2023年 华为杯数学建模 E题

2023年 华为杯数学建模 E题思路与经验分享。——全国二等奖
原创
发布博客 2023.11.15 ·
667 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

预处理代码

如果数据不满足这个假设,其他异常值检测方法可能更合适。正负3∂的概率是99.7%,那么距离平均值3∂之外的值出现的概率为P(|x-u| > 3∂)
原创
发布博客 2023.09.21 ·
1202 阅读 ·
5 点赞 ·
0 评论 ·
13 收藏

ARIMA模型

ARIMA模型(Autoregressive Integrated Moving Average model),差分整合移动平均自回归模型,又称整合移动平均自回归模型,时间序列预测分析方法之一。ARIMA(p,d,q)中,AR是"自回归",p为自回归项数;MA为"滑动平均",q为滑动平均项数,d为使之成为平稳序列所做的差分次数(阶数)。"差分"一词虽未出现在ARIMA的英文名称中,却是关键步骤。
原创
发布博客 2023.09.14 ·
17179 阅读 ·
27 点赞 ·
0 评论 ·
234 收藏

Mann-Kendall 检验

具体来说,Mann-Kendall测试将时间序列中的每个数据点与所有之前的数据点进行比较,计算出每个数据点之前比它小的数据点数目和比它大的数据点数目,然后比较这两个数量的大小关系,以确定是否存在单调趋势。其中,Var(S)是S的方差,S是Mann-Kendall检验的检验统计量。如果我们设显著性水平为α,则在双侧检验中,如果∣Z∣大于等于标准正态分布的第(1−α/2)个百分位数,则拒绝原假设,认为存在单调趋势。当n≥8时,统计量S大致服从正态分布,因此,我们可以将S标准化为Z,以便进行显著性检验。
原创
发布博客 2023.09.13 ·
6742 阅读 ·
8 点赞 ·
0 评论 ·
53 收藏

对比学习与聚类

具体来说,对比学习会定义正负样本对,正样本是同一数据的不同变换,负样本是其他数据。然后,对比学习会定义一个损失函数,这个损失函数的含义是希望同一数据及其变换的相似度高,不同数据之间的相似度低。通过最小化这个损失函数,学习到相似数据有相似特征表示的能力。聚类是让相似的数据聚集在一起,对比学习是让相似的数据有相似的特征表示。
原创
发布博客 2023.08.30 ·
436 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

记录每次运行得到的变量值

首先尝试了logging方法,但是报错python3.8没有encoding变量无法编码非ascii码。使用GPT重写的代码,又无法写入内容到文件里。最后简单粗暴,让GPT给直接写入文件的代码。但是新旧response是否相等的判断一直有问题,最后还是靠自己去看,去debug,才搞完的。前前后后花了两个小时,在此记录。希望下次遇到类似代码,自己能直接写了。CahtGPT写代码的能力越来越差了o(╥﹏╥)o还是只有靠自己啊。
原创
发布博客 2023.07.31 ·
88 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

batch size大小的选择与显存

因为越大,虽然线程多了,但是切分到每一个线程消耗也大了,所以会增加CPU的负荷,从而降低对GPU的利用。模型的加载很难控制(但是考虑到部署的话就要考虑模型加载需要的显存问题了),一般调节batch_size来控制显存的占用(若出现out of memry,那就调batch_size就完事了)梯度累加则实现了batchsize的变相扩大,如果accumulation_steps为8,则batchsize '变相' 扩大了8倍,是解决显存受限的一个不错的trick。GPU利用率低的因素有很多,一般情况下,
原创
发布博客 2023.07.24 ·
5369 阅读 ·
3 点赞 ·
0 评论 ·
10 收藏

TCSP代码的预测值y_pred为nan的原因排查

标签有NAN了,梯度肯定也是NAN,那更新梯度的时候,模型的参数肯定也NAN了,但凡只要一个样本有一个nan,那后面肯定就全完蛋了。我们发现最开始的时候,并不是NAN,是都有数据的。但是多推理几次就完蛋了,从encoder开始就是NAN了, 此时输入和那一层的输入确实又不是NAN。总的来说,输出NAN的情况,基本都要么是输入就有NAN,要么是反向传播的时候梯度NAN了。5.打印model的每一步输出,发现mode的第一层的结果w_hs就为nan。打印发现encode的输入,是包含nan的。
原创
发布博客 2023.07.05 ·
398 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

conda env create -f environment.yml报错:collecting package metadata (repodata ProxyError):

2、一般不用重新建环境,软件是向后兼容的,window7的代码在windows11也能跑,torch1.7的代码在torch2.0也能跑。偶尔遇到几个报错,可能是api的问题,首先试试更换函数能不能解决,比如np.float->np.float64。最后实在不行才折腾环境。ProxyError多半是vpn的问题,把vpn关闭或者打开再关闭就可以了。此外torch需要手动安装,不然会报错。1、pip install不行的库,conda可能行。
原创
发布博客 2023.06.27 ·
600 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ChatGLM 的PPL、Distinct评价代码

根据输入去预测输出的第一个token的概率向量,然后把真实标签的第一个token添加到末尾作为输入,去预测输出的第二个token的概率向量。4、计算Distinct。2、读取json文件。
原创
发布博客 2023.05.19 ·
734 阅读 ·
0 点赞 ·
1 评论 ·
4 收藏

PPL代码

针对文本中的词预测任务来说,离散概率分布p的困惑度由下式给出,其中H(p) 是该分布的熵,x遍历事件空间。根据PPL两种不同的计算公式,有两种不同的代码实现。实现一:使用perplexity的。:将每个位置上的概率取对数再平均。
原创
发布博客 2023.05.17 ·
1347 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

不再迷糊ing

一些经常模糊的基础知识底单
原创
发布博客 2023.05.07 ·
75 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

效率upupup

官方本来给定的指令和文件是python cover_alpaca2jsonl.py --data_path data/alpaca_data.json --save_path data/alpaca_data.jsonl。决定记录把自己之前不会,但当下掌握了的一些方法记录下来,免得因为忘记了,下次遇到的时候,还是不会(这样的事时常发生,也是我一直不怎么爱写代码的原因之一,因为自己debug摸不着头脑)。发现输出的数据格式正确后,说明应该是本身存在alpaca_data.jsonl,这个文件的问题。
原创
发布博客 2023.05.07 ·
188 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

TypeError: rms() takes 0 positional arguments but 1 was given

运行librosa.feature.rms(y)时报错TypeError: rms() takes 0 positional arguments but 1 was given。
原创
发布博客 2023.04.25 ·
815 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

音频数据的情感分类_pytorch实现

音频数据的情感分类_pytorch实现.使用模型Parallel 2D CNN - Trnasformer Eencoder在数据集RAVDESS上,实现了96.78%的准确率。
原创
发布博客 2023.04.24 ·
1083 阅读 ·
3 点赞 ·
1 评论 ·
16 收藏
加载更多