机器学习
LS_learner
业精于勤,荒于嬉;
行成于思,毁于随。
展开
-
程序员应对35岁中年危机的措施
程序员应对35岁中年危机的措施原创 2021-12-18 10:28:43 · 712 阅读 · 2 评论 -
时间序列竞赛技巧
时间序列竞赛的炸榜技巧原创 2021-12-12 10:53:23 · 1230 阅读 · 0 评论 -
深度学习那些你需要知道的事情
1、机器学习训练时,Mini-Batch 的大小优选为2个的幂,如 256 或 512。它背后的原因是什么? Answer:Mini-Batch 设为 2 的 幂,是为了符合 CPU、GPU 的内存要求,利于并行化处理。原创 2021-06-24 15:24:14 · 391 阅读 · 1 评论 -
每次迭代,loss的波动很大的解决办法
每次迭代,loss的波动很大,有如下几方面:(1)学习率选取较大;(2)在loss不再下降的时候降低学习率;(3)每个epoch训练之前,对数据进行重新打乱,如果你的 batch 的内容和顺序都是固定的,可能造成模型 overfit 这个顺序;(4)各个 batch 的 loss 有不同是正常的,但如果波动太大,可能说明你的各个 batch 不是 homogeneous 的(即内容差别太大),不能代表整体数据。可以试试加大 batch size。总结就是:当loss不下降时,降低学习率,一般降低原创 2021-03-09 20:07:09 · 21767 阅读 · 0 评论 -
深度学习存在的瓶颈
深度神经网络目前的瓶颈:1、 需要大量标注数据2、 过度拟合基准数据3、 对图像变化过度敏感问题:1、怎样在有限的数据集里训练,才能让AI在复杂的真实世界里也有很好的表现?2、怎样在有限的数据集里,高效地给算法做测试,才能保证它们承受得了现实里大量数据的考验?...原创 2021-03-09 19:35:43 · 552 阅读 · 1 评论 -
DTW(Dynamic Time Warping)动态时间规整——简单易懂
DTW可以用来干什么呢?DWT可以计算两个时间序列的相似度,尤其适用于不同长度、不同节奏的时间序列(比如不同的人读同一个词的音频序列)。比如:DTW在语音中的运用:在实际应用中,比如说语音识别中的孤立词识别,我们首先训练好常见字的读音,提取特征后作为一个模板。当需要识别一个新来的词的时候,也同样提取特征,然后和训练数据库中的每一个模板进行匹配,计算距离。求出最短距离的那个就是识别出来的字了。那么距离如何计算呢,因为待识别的语音的长度和模板的长度不总是一直的,也很难做到一致,所以DTW就可以解决这个原创 2021-01-09 17:20:25 · 6218 阅读 · 1 评论 -
深度学习已死,可微编程万岁?如何理解
“深度学习已死,可微编程万岁”如何理解首先介绍一下可微编程是什么呢?简单来说,就是把神经网络当成一种语言,而不是一个简单的机器学习的方法,从而描述我们客观世界的概念以及概念之间的关系。这种观点无限地提高了神经网络的地位。LeCun曾在facebook的文章里说:”Deep Learning Is Dead. Long Live Differentiable Programming!” (深度学习已死,可微编程永生)。具体的可微编程和现有的深度学习、机器学习又有什么关系呢?这里有一个简单的对比,在上图中原创 2020-11-29 20:31:20 · 1004 阅读 · 4 评论 -
lightGBM参数解析及其参数调优
lightgbm是xgboost的加强升级版.LightGBM=XGBoost+Histogram+GOSS+EFB其中,Histogram算法是直方图算法,作用:减少后选分类点的算法GOSS是基于梯度的单边采样算法,作用减少样本数量EFB算法是互斥特征捆绑算法,作用是减少特征数量基于以上三个算法,LightGBM生产一片叶子需要的复杂度大大降低了,从而极大节约了计算时间。同时Histogram算法还将特征浮点数转换成0~255位的证书进行存储,从而集打节约了内存存储空间。代码举例:impor原创 2020-10-25 20:45:10 · 27690 阅读 · 7 评论 -
TPOT自动机器学习参数详解
TPOT自动机器学习参数详解分类:代码class tpot.TPOTClassifier(generations=100, population_size=100, offspring_size=None, mutation_rate=0.9, crossover_rate=0.1,原创 2020-10-25 15:20:48 · 4006 阅读 · 0 评论 -
自动化机器学习TPOT及其python实例
自动化机器学习TPOT及其python实例自动化机器学习,顾名思义就是输入为整理好的一个数据文件,告知特征和目标。利用该工具可以自动生成模型,实现分类或回归的预测任务。同时还能导出选用的代码管道,以供继续优化和学习。TPOT将通过智能地探索数千种可能的管道来自动化机器学习中最乏味的部分,从而找到最适合您数据的管道。TPOT建立在scikit-learn之上,使用TPOT(版本0.9.5)开发模型需要把握以下几点:在使用TPOT进行建模前需要对数据进行必要的清洗和特征工程操作。TPOT目前只能做有原创 2020-08-15 21:32:09 · 1292 阅读 · 0 评论 -
sklearn.feature_extraction 中 DictVectorizer类的使用
from sklearn.feature_extraction import DictVectorizerDictVectorizer: 字典向量化举例一,键值全部为数之的字典:v = DictVectorizer(sparse=False)D = [{'foo': 1, 'bar': 2}, {'foo': 3, 'baz': 1}]sparse:布尔值,可选。变换是否应该产生scipy.sparse矩阵,默认为True。X = v.fit_transform(D)输出结果为:ar原创 2020-08-15 17:53:30 · 1396 阅读 · 0 评论 -
机器学习的回归评价指标
回归评价指标回归类算法的模型评估一直都是回归算法中的一个难点,但不像无监督学习算法中的轮廓系数等等评估指标,回归类与分类型算法的模型评估其实是相似的法则——找真实标签和预测值的差异。只不过在分类型算法中,这个差异只有一种角度来评判,那就是是否预测到了正确的分类,而在回归类算法中,有两种不同的角度来看待回归的效果:第一,是否预测到了正确的数值。第二,是否拟合到了足够的信息。这两种角度,分别对应着不同的模型评估指标。角度一、是否预测了正确的数值回忆一下RSS残差平方和,它的本质是预测值与真实值之间的原创 2020-07-13 18:51:24 · 6843 阅读 · 0 评论 -
决策树与随机森林之间的关系
决策树与随机森林之间的关系在此之前需要先熟悉决策树是怎么一回事。了解之后,再看下面的内容就非常轻松了。决策树是一种有监督的机器学习算法,该方法可以用于解决分类和回归问题。决策树可以简单地理解为达到某一特定结果的一系列决策。随机森林是基于树的机器学习算法,该算法利用了多棵决策树的力量来进行决策。为什么要称其为“随机森林”呢?这是因为它是随机创造的决策树组成的森林。决策树中的每一个节点是特征的一个随机子集,用于计算输出。随机森林将单个决策树的输出整合起来生成最后的输出结果。简单来说:“随机森林算法用多原创 2020-07-13 10:40:04 · 18507 阅读 · 0 评论