UESTC_20172222-CSDN博客

原创多个checkpoint 的参数进行平均

现在将这些ckpt的参数进行平均合并成一个model.ckpt-457157708。source_model 路径下存在以下几个checkpoint。

2023-09-14 15:28:11 330

原创【leetcode】1052. 爱生气的书店老板

题目解法class Solution: def maxSatisfied(self, customers, grumpy, X) -> int: ''' 固定窗口最大和 :param customers: :param grumpy: :param X: :return: ''' minus=len(customers) cus_gru=[]

2021-02-23 21:06:49 268

原创【python学习】python import

Python import 的搜索路径在当前目录下搜索该模块在环境变量 PYTHONPATH 中指定的路径列表中依次搜索在 Python 安装路径的 lib 库中搜索如果在编程中模块和自己写的python文件不在同一个目录下，在文件开头加sys.path.append(‘模块的路径’)，这种方法是运行时修改，脚本运行后就会失效的。其他具体细节可以参考这位的blog...

2019-11-21 12:00:55 395

原创【pytorch学习】torch.multinomial

温馨提示：为了大家能很好的理解这个**多项式分布采用**，这里建议先看下面的这段内容至于什么是多项式分布，这里不再赘述，不懂的同学可以去这里学习多项式分布采样实现逻辑以下这段内容是来自这里，这里目的是为了学习，如有侵权，联系我删除。思路：将每个概率值对应到[0,1]区间内的各个子区间（概率值大小体现在子区间的长度上），每次采样时，按照均匀分布随机生成一个[0,1]区间内的值，其落到哪个...

2019-11-20 11:57:14 2665

原创【pytorch学习】torch.tensor

这是一个常用的api 这里对其尽可能描述torch.tensortorch.tensor(data, dtype=None, device=None, requires_grad=False, pin_memory=False) → Tensor使用数据**data**构造一个tensor'''Returns a tensor filled with uninitialized d...

2019-11-07 20:03:13 722

原创【pytorch学习】torch.zeros

torch.zeros返回一个形状为为size,类型为torch.dtype，里面的每一个值都是0的tensortorch.zeros(*size, out=None, dtype=None, layout=torch.strided, device=None, requires_grad=False) → Tensor'''Returns a tensor filled with the...

2019-11-07 11:33:10 53366 4

torch.rand返回服从均匀分布的初始化后的tenosr，外形是其参数size。torch.rand(*size, out=None, dtype=None, layout=torch.strided, device=None, requires_grad=False) → Tensortorch.rand(*size, out=None, dtype=None, layout=torc...

2019-11-07 11:22:01 20185

原创【pytorch学习】torch.empty

torch.emptytorch.empty(*size, out=None, dtype=None, layout=torch.strided, device=None, requires_grad=False, pin_memory=False) → Tensor ''' Returns a tensor filled with uninitialized data. The sha...

2019-11-07 10:51:13 20237 1

原创【深度学习】逻辑回归损失函数如果用平方损失有什么问题

特别无奈逻辑回归的损失函数为啥是交叉熵我的另一篇博客：逻辑回归为什么使用对数损失函数逻辑回归为啥不用平方损失原因很简单：就是会出现梯度消失问题，至于为啥看下面的这个推导（我真是无语！），其他的真的没啥说的了...

2019-09-06 10:53:31 2301 1

转载【深度学习】L1和L2详解

reference来自这位大佬，这里只是为了学习使用，侵权请联系我删除

2019-09-02 16:00:59 1821

转载【机器学习】浅谈凸优化

reference来自这位大佬

2019-08-11 09:37:54 365

原创【机器学习】几种常见的概率分布

之前你已经了解概率的基础知识（如果还不知道概率能干啥，在生活中有哪些应用的例子，可以看我这个：人工智能时代，用概率思维发现人生机会www.zhihu.com今天我们来聊聊几种特殊的概率分布。这个知识目前来看，还没有人令我满意的答案，因为其他人多数是在举数学推导公式。我这个人是最讨厌数学公式的，但是这并不妨碍我用统计概率思维做很多事情。相比熟悉公式，我更想知道学的这个知识能用到什么地方。可惜，还没...

2019-08-10 10:49:20 4363 3

原创【机器学习】逻辑回归为什么使用对数损失函数

reference来自这位大佬

2019-08-09 21:11:41 1962

转载【机器学习】线性回归损失函数为什么要用平方形式

reference这位大佬写的真好，这里直接搬过来，真的值的看

2019-08-09 20:32:15 869

原创【数据结构算法】迷宫的最短路径 - BFS

题目给定一个大小为N*M的迷宫，由通道(’.’)和墙壁(’#’)组成，其中通道S表示起点，通道G表示终点，每一步移动可以达到上下左右中不是墙壁的位置。试求出起点到终点的最小步数。（本题假定迷宫是有解的）解题思路是BFS和队列的结合应用结合代码看，更容易理解从起点开始，先将其加入队列，设置距离为0从队列首端取出位置，将从这个位置能够到达的位置加入队列，并且让这些位置的距离为上一个位置的...

2019-08-05 20:38:54 942

原创【数据结构算法】卡塔兰数的几个算法应用问题

卡塔兰数至于什么是卡塔兰数自己去这里了解哈这里给出算法迭代公式``h(n)=(4n-2)/(n+1)*h(n-1) (n>=1) h(0)=1

2019-08-05 18:35:14 385

原创【数据结构算法】有向图的遍历应用--抖音网红

题目‘’’需要找到所有的抖音红人，用户数为N，关注关系有M对。(A,B)代表A关注了B。关注关系具有传递关系，比如有(A,B)(B,C)，那么认为A间接关注了C。如果一个用户被所有N个用户直接或间接关注，那么我们认为这个用户就是抖音红人。求抖音红人的总数。输入：**第一行，整数N第二行，整数M第三行，M*2个整数，代表M个关注关系这一题是一个有向图的遍历问题‘’’解题思路数据是...

2019-08-03 14:01:10 460

原创【深度学习】BPE的算法过程和优缺点

什么是BPEBPE字节对编码。他的算法过程可以简单的描述为迭代的将字符串里面出现频率最高的字符子串用一个新的符号来代替.具体的过程可以参考这两篇博客大佬1 ；大佬2.优缺点优点它是介于字符和单词之间的一种语义单元表示，其可以一定程度上缓解OOV问题，同时也减少了单词表的大小。缺点因为他是基于频率统计的，所以对语料的很有依懒性，当我们的语料是通用领域的，而且规模很大，使用BPE效果...

2019-08-01 20:22:29 2116

原创【深度学习】beam search过程以及优缺点

beamsearch 的过程Beamseach 是我们在生成任务中常用的技术，它是在测试的时候使用。过程：假设我们的单词表大小为50，我们设置的beam_size为5在生成第一个单词的时候，选择概率最大的5个单词，假设为a,b,c,d,e在生成第二个单词的时候，我们将第一步生成的5个单词和单词表中的每个单词进行组合，我们将得到5*50中组合，在这些组合中选择概率最高的5个重复上述过程，...

2019-07-29 19:42:53 2755 2

原创【深度恶习】如何防止过拟合

防止过拟合自己这里总结一下什么是过拟合过拟合就是模型的泛化能力不好，我们训练出来的模型表现出低偏差，高方差。通常是由两个方面引起的数据+模型复杂度解决办法出现这种情况:我们可以通过增加更多训练数据集，让模型看到更多的特征组合我们可以降低我们的模型的复杂度，也就是适当的减少一些参数同时我们还可以使用dropout，l2正则。在训练的时候，我们可以根据模型的在验证集的指标来判断是否...

2019-07-29 19:10:00 339

转载【机器学习】k-means聚类中K该如何选择

最近做了一个数据挖掘的项目，挖掘过程中用到了K-means聚类方法，但是由于根据行业经验确定的聚类数过多并且并不一定是我们获取到数据的真实聚类数，所以，我们希望能从数据自身出发去确定真实的聚类数，也就是对数据而言的最佳聚类数。为此，我查...

2019-07-23 17:03:43 1259

转载【机器学习】偏差和方差的理解！非常值得推荐阅读！

目录：为什么会有偏差和方差？偏差、方差、噪声是什么？泛化误差、偏差和方差的关系？用图形解释偏差和方差。偏差、方差窘境。偏差、方差与过拟合、欠拟合的关系？偏差、方差与模型复杂度的关系？偏差、方差与bagging、boosting的关系？偏差、方差和K折交叉验证的关系？如何解决偏差、方差问题？1. 为什么会有偏差和方差？对学习算法除了通过实验估计其泛化性能之外，人们往往还希望了解它为什么具有这样的性能...

2019-07-23 11:43:44 990 1

转载【深度学习】 XLNet的细节以及和bert的联系和区别

这两天，XLNet貌似也引起了NLP圈的极大关注，从实验数据看，在某些场景下，确实XLNet相对Bert有很大幅度的提升。就像我们之前说的，感觉Bert打开两阶段模式的魔法盒开关后，在这条路上，会有越来越多的同行者，而XLNet就是其中比较引人注目的一位。当然，我估计很快我们会看到更多的这个模式下的新工作。未来两年，在两阶段新模式（预训练+Finetuning）下，应该会有更多的好工作涌现出来。根...

2019-07-18 11:30:34 633

转载【深度学习】CVAE的KL损失公式的推导

KL散度，VAE KL散度（相对熵）衡量两个概率分布的距离，两个概率分布越相似，KL散度越小，交叉熵越小。表示已知q，p的不确定性程度-p的不确定性程度交叉熵：表示已知分布p后q的不确定程度，用已知分布p去编码q的平均码长交叉熵在分类任务中为loss函数往往交叉熵比均方误差做loss函数好1.均方差求梯度太小，在深度网络中，...

2019-07-12 19:44:35 2859 2

转载【深度学习】特征提取器：Transformer,Rnn,CNN之间的相互比较

在辞旧迎新的时刻，大家都在忙着回顾过去一年的成绩（或者在灶台前含泪数锅），并对2019做着规划，当然也有不少朋友执行力和工作效率比较高，直接把2018年初制定的计划拷贝一下，就能在3秒钟内完成2019年计划的制定，在此表示祝贺。2018年从经济角度讲，对于所有人可能都是比较难过的一年，而对于自然语言处理领域来说，2018年无疑是个收获颇丰的年头，而诸多技术进展如果只能选择一项来讲的话，那么当之无愧...

2019-06-10 21:04:31 4594

原创【深度学习】sentencepiece工具之BPE训练使用

为什么要使用BPE,BPE是什么晚上补上使用教程代码使用的语料在这里# -*- coding: utf-8 -*-#/usr/bin/python3import osimport errnoimport sentencepiece as spmimport reimport logginglogging.basicConfig(level=logging.INFO)...

2019-06-05 16:12:55 6090 5

原创【python学习】python 连接mysql,并一行一行的读取数据表中的记录

简单介绍使用python连接mysql，并一行一行的读取数据表中的记录（适用于数据量比较庞大时）# _*_ coding:utf-8 _*_# 导入模块import pymysql# 1.连接到mysql数据库conn = pymysql.connect(host='#', user='#', password='#', db='#', charset='utf8')# local...

2019-06-03 22:04:44 8629

原创【机器学习】分类时，为什么不使用均方误差而是使用交叉熵作为损失函数

MSE对于每一个输出的结果都非常看重，而交叉熵只对正确分类的结果看重当MSE和交叉熵同时应用到多分类场景下时，（标签的值为1时表示属于此分类，标签值为0时表示不属于此分类），**MSE对于每一个输出的结果都非常看重**，**而交叉熵只对正确分类的结果看重**。例如：在一个三分类模型中，模型的输出结果为（a,b,c)，而真实的输出结果为(1,0,0)，那么MSE与cross-entropy相对应的...

2019-05-23 11:23:35 3883

原创【机器学习】分类时，使用平方损失搭配sigmoid激活函数出梯度消失现象

当sigmoid函数和MSE一起使用时会出现梯度消失。原因如下：(1)MSE对参数的偏导(2)corss-entropy对参数的偏导由上述公式可以看出，在使用MSE时，w、b的梯度均与sigmoid函数对z的偏导有关系，而sigmoid函数的偏导在自变量非常大或者非常小时，偏导数的值接近于零，这将导致w、b的梯度将不会变化，也就是出现所谓的梯度消失现象。而使用cross-entrop...

2019-05-23 11:10:09 1764

原创【数据结构算法】合并两个有序数组

题目给定两个有序整数数组 nums1 和 nums2，将 nums2 合并到 nums1 中，使得 num1 成为一个有序数组。说明:初始化 nums1 和 nums2 的元素数量分别为 m 和 n。你可以假设 nums1 有足够的空间（空间大小大于或等于 m + n）来保存 nums2 中的元素。示例:输入:nums1 = [1,2,3,0,0,0], m = 3nums2 = ...

2019-04-30 21:18:42 481

原创【数据结构算法】搜索二维矩阵 II

题目搜索二维矩阵 II编写一个高效的算法来搜索 m x n 矩阵 matrix 中的一个目标值 target。该矩阵具有以下特性：每行的元素从左到右升序排列。每列的元素从上到下升序排列。示例:现有矩阵 matrix 如下：[ [1, 4, 7, 11, 15], [2, 5, 8, 12, 19], [3, 6, 9, 16, 22], [10, ...

2019-04-30 20:46:53 248

原创【数据结构算法】求众数

题目给定一个大小为 n 的数组，找到其中的众数。众数是指在数组中出现次数大于 ⌊ n/2 ⌋ 的元素。你可以假设数组是非空的，并且给定的数组总是存在众数。示例 1:输入: [3,2,3]输出: 3示例 2:输入: [2,2,1,1,1,2,2]输出: 2解题思路解法1统计每个数出现的次数，求最大的那个解法2众数是指在数组中出现次数大于 ⌊ n/2 ⌋ 的元素。所以可...

2019-04-30 20:20:13 1347

原创【数据结构算法】只出现一次的数字

题目给定一个非空整数数组，除了某个元素只出现一次以外，其余每个元素均出现两次。找出那个只出现了一次的元素。说明：你的算法应该具有线性时间复杂度。你可以不使用额外空间来实现吗？示例 1:输入: [2,2,1]输出: 1示例 2:输入: [4,1,2,1,2]输出: 4解题知识在python中：按位的运算，都按位的运算，都是把参加运算的数的二进制形式进行运算。1.与运算...

2019-04-30 19:51:08 230

原创【数据结构算法】矩阵中的最长递增路径

题目给定一个整数矩阵，找出最长递增路径的长度。对于每个单元格，你可以往上，下，左，右四个方向移动。你不能在对角线方向上移动或移动到边界外（即不允许环绕）。示例 1:输入: nums = [ [9,9,4], [6,6,8], [2,1,1]] 输出: 4 解释: 最长递增路径为 [1, 2, 6, 9]。示例 2:输入: nums = [ [3,4,5],...

2019-04-27 16:39:46 996

原创【深度学习】LSTM为什么会可以解决梯度消失问题

为了想清楚这个问题真心不容易，感谢这个知乎大佬我尝试从另一个角度——sigmoid函数值分布与导数值分布的差异，来解释LSTM的gate怎么起作用。对于RNN来说，前后两个step的hidden state中间经过了一层sigmoid，所以后向传播的时候梯度会乘上一个sigmoid的导数值；对于LSTM来说，前后两个step的hidden cell没有经过一个sigmoid层，而是乘了一个sig...

2019-04-18 21:43:38 7856 1

原创 tf.nn.sigmoid_cross_entropy_with_logits

tf.nn.sigmoid_cross_entropy_with_logits这个函数适用于多标签分类是的损失函数(即类别和类别之间是相互独立的，不互斥的）tf.nn.sigmoid_cross_entropy_with_logits( _sentinel=None, labels=None, logits=None, name=None)参数说明计算网...

2019-04-18 15:46:50 2104

原创【深度学习】tf.contrib.crf.crf_log_likelihood()在使用crf做序列标注的损失函数

写之前写吐槽一下，当时写代码的时候看了一下CRF的推导怎么都看不懂，所以当时写的时候从别人的代码直接复制出来，今天面试的时候被面试官问了，结束后研究一下，发现代码真的好简单、、。。。。。。tf.contrib.crf.crf_log_likelihood()代码实现细节在这里，，，我只是为了看一下[transition_params],其实他也事一个variable，所以可以存储保存下来(ht...

2019-04-17 20:29:40 3601

原创【数据结构算法】编辑距离的加强版（允许相邻字符串进行交换）

思路就是加一个判断，如果满足交换，则尝试交换（即：word1[i] = word2[j - 1] and word1[i - 1] = word2[j] ），不满足的话则退化传统的3种操作class Solution: @staticmethod def minDistance( word1, word2): """ :type word1: ...

2019-04-17 18:06:08 998

原创【机器学习】模拟退化

　　优化算法入门系列文章目录（更新中）：　　1. 模拟退火算法　　2. 遗传算法一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前，先介绍爬山算法。爬山算法是一种简单的贪心搜索算法，该算法每次从当前解的临近解空间中选择一个最优解作...

2019-04-09 12:16:29 924

转载【机器学习】SVD奇异值分解

这里给出一篇非常好的博客，方便自己以后查看感谢大佬，讲的简单易懂

2019-04-05 10:59:42 234

空空如也

空空如也