2019年03月_c_木ss

原创 Transformer与BERT详解

Transformer自Attention机制提出后，加入attention的Seq2seq模型在各个任务上都有了提升，所以现在的seq2seq模型指的都是结合rnn和attention的模型，具体原理可以参考传送门的文章。之后google又提出了解决sequence to sequence问题的transformer模型，用全attention的结构代替了lstm，在翻译任务上取得了更好的成绩...

2019-03-23 01:51:45 23121 1

原创 python-leetcode-547-朋友圈

**题号: **547**题目: **朋友圈**难度: **中等**内容: **班上有 N 名学生。其中有些人是朋友，有些则不是。他们的友谊具有是传递性。如果已知 A 是 B 的朋友，B 是 C 的朋友，那么我们可以认为 A也是 C 的朋友。所谓的朋友圈，是指所有朋友的集合。给定一个 N N 的矩阵 M ，表示班级中学生之间的朋友关系。如果M[i][j] = 1，表示已知第 ...

2019-03-21 21:48:25 581

原创 Attention 注意力机制

文章来源：https://www.zhihu.com/question/68482809/answer/264632289注意力模型最近几年在深度学习各个领域被广泛使用，无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中，都很容易遇到注意力模型的身影。所以，了解注意力机制的工作原理对于关注深度学习技术发展的技术人员来说有很大的必要。人类的视觉注意力从注意力模型的命名方式看，很明显...

2019-03-19 10:50:44 2509 1

原创 python-leetcode-200-岛屿的个数

**题号: **200**题目: **岛屿的个数**难度: **中等**内容: **给定一个由 '1'（陆地）和'0'（水）组成的的二维网格，计算岛屿的数量。一个岛被水包围，并且它是通过水平方向或垂直方向上相邻的陆地连接而成的。你可以假设网格的四个边均被水包围。示例 1:输入:11110110101100000000输出: 1示例 2:输入:110001100...

2019-03-17 22:00:10 468

原创通俗易懂的RNN总结（包含LSTM/GRU/BPTT等）

1、RNN介绍：RNN的基本想法是如何采用序列信息。在传统神经网络中我们假设所有的输入和输出都是相互独立的，但对于很多任务这样的假设并不合适。如果你想预测一个句子的下一个单词，的则需要知道之前的words包括哪些。RNN被称为循环因为它们对句子的每个元素都执行相同的任务，输出依赖于之前的计算；另一个理解RNN的方法是假设他们用记忆能够获取之前计算过的信息。理论上RNN能够利用任意长的句子，但是...

2019-03-17 21:49:25 3640

原创对卷积神经网络、池化层、反卷积以及Text-CNN原理的理解

今天，我们来讨论一下卷积，以及卷积神经网络，这里边具体怎么运算的，请看下面分析：首先选取知乎上对卷积物理意义解答排名最靠前的回答。然后再来看分析卷积神经网络1、卷积来自知乎的优秀回答！不推荐用“反转/翻转/反褶/对称”等解释卷积。好好的信号为什么要翻转？导致学生难以理解卷积的物理意义。这个其实非常简单的概念，国内的大多数教材却没有讲透。卷积是分析数学中一种重要的运算。设： f(x)...

2019-03-15 09:25:05 2836

原创 python-leetcode-130-被围绕的区域

**题号: **130**题目: **被围绕的区域**难度: **中等**内容: **给定一个二维的矩阵，包含 'X' 和 'O'（字母 O ）。找到所有被 'X' 围绕的区域，并将这些区域里所有的 'O' 用 'X' 填充。示例:X X X XX O O XX X O XX O X X运行你的函数后，矩阵变为：X X X XX X X XX X X XX O X ...

2019-03-14 23:18:06 404

原创从one-hot到word2vec再到FastText

0、one-hot representation（稀疏向量）稀疏向量，就是用一个很长的向量来表示一个词，向量的长度为词典的大小N，向量的分量只有一个1，其他全为0，1的位置对应该词在词典中的索引。假设一段文本有1000个词，如果用一个矩阵来表示这个文本，那么这个矩阵的维度为1000*1000。假设文本中有‘’方便面‘’，‘’面条‘’，‘’狮子’‘这三个词，用one-hot向量表示的话，可以表...

2019-03-13 16:50:26 1225

原创 python-leetcode-128-最长连续序列

**题号: **128**题目: **最长连续序列**难度: **困难**内容: **给定一个未排序的整数数组，找出最长连续序列的长度。要求算法的时间复杂度为 O(n)。示例:输入: [100, 4, 200, 1, 3, 2]输出: 4解释: 最长连续序列是 [1, 2, 3, 4]。它的长度为 4。class Solution: def longestConsec...

2019-03-13 10:19:11 819

原创人工神经网络知识、激活函数、正则化、优化技术、Batch Normalization、Layer Normalization

目录：1、神经网络基础概念2、激活函数3、深度学习中的正则化4、深度模型中的优化技术5、batch norm层6、Layer Normalization1、神经网络基础概念前言对于人工智能，相比大家都经常会听到。各大新闻媒体每天都对一些人工智能项目进行报道，且人工智能如何如何。今天我们就来学习一下人工智能中用到最重要之一的深度学习知识。我们会对神经网络进行介绍，接下来我们就开始吧...

2019-03-11 16:53:30 2001

原创 python-leetcode-390-消除游戏

题目描述：给定一个从1 到 n 排序的整数列表。首先，从左到右，从第一个数字开始，每隔一个数字进行删除，直到列表的末尾。第二步，在剩下的数字中，从右到左，从倒数第一个数字开始，每隔一个数字进行删除，直到列表开头。我们不断重复这两步，从左到右和从右到左交替进行，直到只剩下一个数字。返回长度为 n 的列表中，最后剩下的数字。示例：输入:n = 9,1 2 3 4 5 6 7 8 9...

2019-03-09 22:56:26 623

原创一文读懂如何用LSA、PSLA、LDA和lda2vec进行主题建模

本文来自知乎：https://zhuanlan.zhihu.com/p/37873878本文是一篇关于主题建模及其相关技术的综述。文中介绍了四种最流行的技术，用于探讨主题建模，它们分别是：LSA、pLSA、LDA，以及最新的、基于深度学习的 lda2vec。在自然语言理解任务中，我们可以通过一系列的层次来提取含义——从单词、句子、段落，再到文档。在文档层面，理解文本最有效的方式之一就是分析其...

2019-03-09 21:59:55 967

转载细谈 SVM原理

本文对SVM进行一个很好的介绍，虽然很长，但是认真看完，对SVM会有很深刻的理解，十分佩服作者！转自：http://www.blogjava.net/zhenandaci/category/31868.html（一）SVM的简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优...

2019-03-09 21:32:36 280

原创机器学习实战：朴素贝叶斯模型之文本分类

在进行利用朴素贝叶斯模型进行文本分类之前，先介绍一下朴素贝叶斯原理！需要搞清楚的概念：1.贝叶斯模型是指模型参数的推断用的是贝叶斯估计方法，也就是需要指定先验分布，再求取后验分布。2.贝叶斯分类是一类算法的总称，这类算法均以贝叶斯定理为基础，故统称贝叶斯分类。我们称之为“朴素”，是因为整个形式化过程只做原始、简单的假设。1.朴素贝叶斯定理：条件贝叶斯公式：p(Ci | x,y)=p(x...

2019-03-09 09:31:00 5062

原创文本挖掘预处理之TF-IDF原理 and 互信息的原理

TF-IDF介绍（维基百科）：tf-idf（英语：term frequency–inverse document frequency）是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。tf-idf加权的各种形式常被...

2019-03-07 13:36:50 1292

原创 python-leetcode-671-合并二叉树

描述：给定两个二叉树，想象当你将它们中的一个覆盖到另一个上时，两个二叉树的一些节点便会重叠。你需要将他们合并为一个新的二叉树。合并的规则是如果两个节点重叠，那么将他们的值相加作为节点合并后的新值，否则不为 NULL 的节点将直接作为新二叉树的节点。示例 1:注意: 合并必须从两个树的根节点开始。代码如下：# Definition for a binary tree node.# c...

2019-03-06 16:01:45 289

原创 python-leetcode-462-最少移动次数使数组元素相等 II

题目描述：给定一个非空整数数组，找到使所有数组元素相等所需的最小移动数，其中每次移动可将选定的一个元素加1或减1。您可以假设数组的长度最多为10000。例如:输入:[1,2,3]输出:2说明：只有两个动作是必要的（记得每一步仅可使其中一个元素加1或减1）： [1,2,3] => [2,2,3] => [2,2,2]代码如下:class Solut...

2019-03-05 10:05:18 629

转载正向最大匹配法、逆向最大匹配法、双向最大匹配法的分析、语言模型中unigram、bigram、trigram的概念以及N-Gram模型介绍

分词算法设计中的几个基本原则：1、颗粒度越大越好：用于进行语义分析的文本分词，要求分词结果的颗粒度越大，即单词的字数越多，所能表示的含义越确切，如：“公安局长”可以分为“公安局长”、“公安局长”、“公安局长”都算对，但是要用于语义分析，则“公安局长”的分词结果最好（当然前提是所使用的词典中有这个词）2、切分结果中非词典词越少越好，单字字典词数越少越好，这里的“非词典词”就是不包含在词典中的...

2019-03-04 20:54:33 19125 2

原创 Python中的collections.Counter模块

1.collections模块介绍：collections是Python内建的一个集合模块，提供了许多有用的集合类。该模块实现了专门的容器数据类型，提供了Python的通用内置容器，dict，list，set和tuple的替代方法。2.counter类官网参考：https://docs.python.org/3.6/library/collections.html#collections.C...

2019-03-04 14:58:34 1466

原创 python leetcode-414-第三大的数

**题号: **414**题目: **第三大的数**难度: **简单**内容: **给定一个非空数组，返回此数组中第三大的数。如果不存在，则返回数组中最大的数。要求算法时间复杂度必须是O(n)。示例 1:输入: [3, 2, 1]输出: 1解释: 第三大的数是 1.示例 2:输入: [1, 2]输出: 2解释: 第三大的数不存在, 所以返回最大的数 2 .示例 ...

2019-03-03 15:32:05 275

原创准确率、召回率、F1、ROC曲线、AUC曲线、PR曲线基本概念

查准率P、查全率R和F1概念：混淆矩阵：预测值为正例，记为P（Positive）预测值为反例，记为N（Negative）预测值与真实值相同，记为T（True）预测值与真实值相反，记为F（False）TP：预测类别是P（正例），真实类别也是PFP：预测类别是P，真实类别是N（反例）TN：预测类别是N，真实类别也是NFN：预测类别是N，真实类别是P样本中的真实正例类别总数即TP+...

2019-03-03 14:25:30 7888 1

原创 NLP——IMDB数据集探索

目录：1.下载 IMDB 数据集2.探索数据3.将整数转换回字词4.准备数据5.构建模型6.创建验证集7.训练模型8.评估模型9.创建准确率和损失随时间变化的图1.下载 IMDB 数据集TensorFlow 中包含 IMDB 数据集。我们已对该数据集进行了预处理，将影评（字词序列）转换为整数序列，其中每个整数表示字典中的一个特定字词。import tensorflow as...

2019-03-03 13:19:08 2547

chen_mushi的博客