鸿语zlx-CSDN博客

原创验证集loss低于训练集loss原因分析

我在模型训练的过程中出现了验证集loss低于训练集loss的情况，通过搜集资料，总结归纳如下原因：原因1：在训练中应用正则化，但在验证/测试中未应用正则化如果在验证/测试期间添加正则化损失，则损失值和曲线将看起来更加相似。原因2：训练loss是在每个epoch测量的，而验证loss是在每个epoch后测量的平均而言，训练损失的测量时间是前一个时期的1/2。如果将训练损失曲线向左移动半个epoch，则损失会更好。原因3：验证集可能比训练集更容易（否则可能会泄漏(leaks)）验证loss低于训练l

2021-07-07 10:18:36 6181 1

原创 Elasticsearch语法

GET _search{ "query": { "match_all": {} }}PUT /lagou-company-index/#检查索引是否存在HEAD /lagou-company-index#查看索引，也可以多个索引一起查询，用逗号隔开GET /lagou-company-index#查看所有索引1GET _all#查看所有索引2GET /_cat/indices?v#打开索引POST /lagou-company-index/_open

2021-07-07 09:48:37 191

原创根据训练效果调整超参数

1、如何调参？1、在确保了数据与网络的正确性之后，使用默认的超参数设置，观察loss的变化，初步定下各个超参数的范围，再进行调参。对于每个超参数，我们在每次的调整时，只去调整一个参数，然后观察loss变化，千万不要在一次改变多个超参数的值去观察loss。2、对于loss的变化情况，主要有以下几种可能性：上升、下降、不变，对应的数据集有train与val（validation），那么进行组合有如下的可能：train loss 不断下降，val loss 不断下降——网络仍在学习；train loss

2021-07-01 11:44:53 1161 1

原创数据分析架构对比

1.1数据分析的基础架构分类：使用Hadoop/Spark进行分析将Hadoop/Spark的结果导入 RDBMS 中提供数据分析将结果保存到容量更大的 NoSQL 数据库中，解决数据分析的存储瓶颈，例如：HBase将数据源进行流式处理，对接流式计算框架（如Storm、Spark、Flink），结果保存到 RDBMS或NoSQL中将数据源进行流式处理，对接分析数据库，例如：Druid互联网技术的快速增长催生了各类大体量的数据，Hadoop很大的贡献在于帮助企业将他们那些低价值的事件流数据转

2021-06-30 09:55:29 577

原创深度学习更容易过拟合

为什么呢？原因在于深度两字，现在的神经网络可以搭建很多层，几十层，甚至上百层，比如手写数字识别案例中，就用到了784个特征，256个中间层神经元，层数与神经元个数不断叠加引发过拟合。如何防止过拟合？1、正则化2、增大数据集3、dropoutdropout也是为了使模型更加简单一些，在构建的神经元中不带那么多神经元参与计算。有一篇文章详细介绍了dropout，可参考添加链接描述...

2021-06-29 09:57:42 191

原创 java连接hbase、redis、mysql

很多时候突然要写一个连接的时候，还要去找度娘，特意整理下，要求自己时不时来看看。hbase连接package com.lagou.hbase.client;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.util.Bytes;import org.

2021-06-18 10:46:57 175

原创大数据集群部署

标题备注：√：表示安装在当前服务器上，另含服务起来后的进程名工具或服务名linux1linux2linux3web页面相关端口号mysql√zookeeper√√√hdfsNameNode、DataNodeDataNodeSecondaryNameNode、DataNodehttp://zb26105:50070/dfshealth.html#tab-overview、http://zb26105:50070/explorer.html

2021-06-16 22:04:39 372 2

原创神经网络：Epoch、Batch Size和迭代

Epoch、Batch Size和迭代深度学习模型离不开这3个术语，下面我们来了解下它们的区别和联系？背景知识：梯度下降分三点：1.直观理解 2. 梯度下降怎么做（附带推荐编程实践） 3. 梯度下降有啥用1、直观理解梯度下降：其实它没啥就是让计算机不断猜最小值的那个点自变量x在哪，猜大了让它小一点，猜小了让它大一点。主要三点：1.梯度下降：两个意思，1.根据梯度（导数）的符号来判断最小值点x在哪;让函数值下降（变小）2.梯度就是导数（对于多维就是偏导数）3.梯度下降作用是找到函数的最小

2021-06-16 15:08:21 4413

转载 paddle video_tag中涉及的性能指标以及机器学习性能指标扩展

paddle video_tag模型涉及的性能指标1、精确率(precision)和准确率(accuracy)实际\预测正负正TP(True Positive)FN(False Negative)负FP(False Positive)TN(True Negative)精确率是针对我们预测结果而言的，它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了，一种就是把正类预测为正类(TP)，另一种就是把负类预测为正类(FP)召回率是针对我们原

2021-06-16 11:35:44 434

原创 paddle video_tag paddle.fluid.io.xmap_readers

paddle video_tag paddle.fluid.io.xmap_readers#源码第1层infer_reader = get_reader(args.model_name.upper(), 'infer', infer_config)#源码第2层def get_reader(name, mode, cfg): reader_model = reader_zoo.get(name, mode, cfg) return reader_model.create_reade

2021-06-14 08:12:02 198

原创 paddle 模型调参

paddle video_tag调参踩坑环境搭建1、centos7+paddlepaddle-gpu==1.8.4.post972、cudn10.0 +driver450+cudnn7.6具体按照步骤见paddle官网安装手册坑1这个点，要怪只能怪自己对代码理解得不到位，那么下面就先记录下这个知识点知识准备：1、Python yield 关键词要理解yield的作用，你必须理解生成器是什么。在理解生成器之前，必须先理解迭代器迭代器mylist = [1,2,3]for i in my

2021-06-13 09:38:38 1068 2

paddle video_tag模型踩坑