![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
michellechouu
这个作者很懒,什么都没留下…
展开
-
不增加维度地把list转为numpy,从concatenate
注:虽然torch也有torch.Tensor(audio)的方式把list转换为tensor然后再处理,但这样是从内存到GPU,很慢,官方文档说的extreamely slow, 建议先像下面的代码一样通过np.concatenate(list)转换为numpy array后,再使用torch.from_numpy(array)转为tensor使用。原创 2022-11-16 10:04:45 · 134 阅读 · 0 评论 -
不增加维度地把list转为numpy,从concatenate
注:虽然torch也有torch.Tensor(audio)的方式把list转换为tensor然后再处理,但这样是从内存到GPU,很慢,官方文档说的extreamely slow, 建议先像下面的代码一样通过np.concatenate(list)转换为numpy array后,再使用torch.from_numpy(array)转为tensor使用。原创 2022-11-16 09:58:30 · 491 阅读 · 0 评论 -
MFCC和fbank的区别
一步一步讲解和实现ASR中常用的语音特征——FBank和MFCC的提取,包括算法原理、代码和可视化等。完整Jupyter Notebook链接:https://github.com/Magic-Bubble/SpeechProcessForMachineLearning/blob/master/speech_process.ipynb语音通常是指人说话的声音。从生物学的角度来看,是气流通过声带、咽喉、口腔、鼻腔等发出声音;从信号的角度来看,不同位置的震动频率不一样,最后的信号是由基频和一些谐波构成。之后被设转载 2022-11-14 10:36:03 · 567 阅读 · 0 评论 -
两种不同json file转csv的操作
读一个 列表形式,列表里是dict的json file。原创 2022-08-28 12:14:05 · 112 阅读 · 0 评论 -
吴恩达新书Machine learning yearning笔记
如果开发集上运行性能良好,却在测试集上效果不佳。如果此时开发集和测试集的分布相同,那么你就能清楚地明白问题所在:算法在开发集上 过拟合了(overfit)。解决方案显然就是去获取更多的开发集数据。但是如果开发集和测试集服从不同的分布,解决方案就不那么明确了。此时可能存在以下一种 或者多种情况:1. 算法在开发集上过拟合了。2. 测试集比开发集更难进行预测,尽管算法做得足够好了,却很难有进一步的提升空间。3. 测试集不一定更难预测,但它与开发集性质并不相同(分布不同)。因此在开发集上表现 良好原创 2021-11-12 22:07:02 · 238 阅读 · 0 评论 -
奇异值分解(SVD)原理与在降维中的应用
奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结,并讨论在在PCA降维算法中是如何运用运用SVD的。1. 回顾特征值和特征向量 我们首先回顾下特征值和特征向量的定义如下:Ax=λxAx=λx 其中A是一个n×nn×n的实对称矩阵,xx是一个nn维向量,则我们说λλ是矩阵A的一个转载 2021-06-14 06:12:45 · 813 阅读 · 0 评论 -
机器学习中Bias(偏差)和Variance(方差)
本文转自https://blog.csdn.net/program_developer/article/details/79829034目录:1. 为什么会有偏差和方差?2. 偏差、方差、噪声是什么?3. 泛化误差、偏差和方差的关系?4. 用图形解释偏差和方差。5. 偏差、方差窘境。6. 偏差、方差与过拟合、欠拟合的关系?7. 偏差、方差与模型复杂度的关系?8. 偏差、方差与bagging、boosting的关系?9. 偏差、方差和K折交叉验证的关系?10. 如何解决偏差、方差.转载 2021-05-03 05:29:56 · 2126 阅读 · 0 评论 -
pandas 把其中一列移动到最后一列 出现unbounded slice error
我的dataframe长这样用pandas.pop(columns) 然后再pandas.insert() color = data.pop('color') data.insert(loc=-1, column='color', value=color, allow_duplicates=False)pop成功可以看到color列已经没有了,列数从448变为了447。但insert报错ValueError: unbounded slice查了才知道lo原创 2021-04-23 15:48:12 · 5614 阅读 · 0 评论 -
sklearn不能对单列数据进行独热编码的问题
OneHotEncoder无法直接对字符串型的类别变量编码,也就是说OneHotEncoder().fit_transform(testdata[['pet']])这句话会报错(不信你试试)。已经有很多人在 stackoverflow 和 sklearn 的 github issue 上讨论过这个问题,但目前为止的 sklearn 版本仍没有增加OneHotEncoder对字符串型类别变量的支持,所以一般都采用曲线救国的方式:方法一 先用 LabelEncoder() 转换成连续的数值型变量,再用 On原创 2021-04-06 09:23:28 · 418 阅读 · 0 评论 -
pandas, dataframe获取最后一行的三种方法
这次为了做NLP的第一个作业:隐马尔科夫模型的此行判断,开始接触pandas,numpy和pandas我真的很不熟,导致了作业晚交,理解了原理但代码写得很痛苦。用测试集计算了词性之间的转移概率,转换成矩阵;以及词性到单词的发射概率,转换成矩阵,记得import numpy as np。veterbi 算法获取预测的词性结果,因为我传进去的观察序列,也就是测试句转换成的单词表,是训练集的每个句子的单词在测试集的单词列表中的对应索引,所以生成的词性列表就要和传进去的观察序列重新匹配上,才能判断到底预测得原创 2021-03-25 07:15:28 · 48218 阅读 · 2 评论 -
logistic regression notes
Simplified Cost Function and Gradient DescentNote: [6:53 - the gradient descent equation should have a 1/m factor]We can compress our cost function's two conditional cases into one case:\mathrm{Cost}(h_\theta(x),y) = - y \; \log(h_\theta(x)) - (1 - y原创 2021-03-03 04:22:37 · 80 阅读 · 0 评论 -
正则表达式和自动机的相互转化
定理 DFA 到正则表达式 终止状态集的处理 例子 正则表达式到 NFA 例子 NFA 到 DFA 自动机等价和确定化 NFA的确定化之子集法构造思想 无ε空边NFA转换为DFA—子集法 带ε空边NFA转换为DFA—子集法 定义1:状态集I的ε闭包 定义2:状态集I的a转换(状态集I经过输入a的转换状态集合) 算法 例子 参考资料定理对任一确定有限自动机A,存在一正则表达式e,使得L(A)=L(e),反之亦然。转载 2021-02-19 22:09:43 · 3014 阅读 · 0 评论 -
详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解
声明:本文为原创文章,发表于nebulaf91的csdn博客。欢迎转载,但请务必保留本信息,注明文章出处。本文作者: nebulaf91本文原始地址:http://blog.csdn.net/u011508640/article/details/72815981最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,转载 2021-02-13 06:47:23 · 454 阅读 · 0 评论 -
Python numpy.transpose 详解
前言看Python代码时,碰见 numpy.transpose 用于高维数组时挺让人费解,通过一番画图分析和代码验证,发现 transpose 用法还是很简单的。正文Numpy 文档 numpy.transpose中做了些解释,transpose 作用是改变序列,下面是一些文档Examples:代码1:<span style="color:#000000"><code class="language-python">x <span style="colo.转载 2021-02-12 18:00:01 · 300 阅读 · 0 评论 -
多项分布与范畴分布
1. 伯努利分布(Bernoulli distribution) 伯努利分布又称二点分布或0-1分布,即一次试验只有正例和反例两种可能,以随机变量表示就是X只能取0或1,伯努利试验是只有两种可能结果的单次随机试验,假设一次试验出现正例的概率为p(0<p<1),那么P(X=1)=pP(X=1)=p,P(X=0)=1−pP(X=0)=1−p,可以统一表达为P(X=k)=pk(1−p)1−k,k=0,1P(X=k)=pk(1−p)1−k,k=0,1,则称X服从参数为p的伯努利分布,记为X∼Ber原创 2021-02-09 08:54:22 · 995 阅读 · 0 评论 -
伯努利分布和二项分布
转载 2021-02-09 05:33:32 · 450 阅读 · 0 评论 -
机器学习:线性回归(一)
第二步里cost functionJ= 1/2*(h(theta)x -y)^2J 对theta 0求偏导 = theta0+theta1*X-y = 2+3*2-4 = 4.转载 2021-02-07 02:59:37 · 118 阅读 · 0 评论 -
掰开揉碎推导Normal Equation
转载 2021-02-06 08:57:42 · 107 阅读 · 0 评论