2018年12月_fkyyly

12月 11月 10月 09月 08月 07月 05月 04月 03月 02月 01月

转载数据结构算法题/二叉树中两个节点的最近公共父节点

这个问题可以分为三种情况来考虑：情况一：root未知，但是每个节点都有parent指针此时可以分别从两个节点开始，沿着parent指针走向根节点，得到两个链表，然后求两个链表的第一个公共节点，这个方法很简单，不需要详细解释的。情况二：节点只有左、右指针，没有parent指针，root已知思路：有两种情况，一是要找的这两个节点（a, b），在要遍历的节点（root）的两侧，那么这个节点就是...

2018-12-25 15:33:33 1024

转载随机数生成

今天学习了用python生成仿真数据的一些基本方法和技巧，写成博客和大家分享一下。本篇博客主要讲解如何从给定参数的的正态分布/均匀分布中生成随机数以及如何以给定概率从数字列表抽取某数字或从区间列表的某一区间内生成随机数，按照内容将博客分为3部分，并附上代码。1 从给定参数的正态分布中生成随机数当考虑从正态分布中生成随机数时，应当首先知道正态分布的均值和方差（标准差），有...

2018-12-24 21:52:37 543

假设你有一个用1001个整数组成的数组，这些整数是任意排列的，但是你知道所有的整数都在1到1000(包括1000)之间。此外，除一个数字出现两次外，其他所有数字只出现一次。假设你只能对这个数组做一次处理，用一种算法找出重复的那个数字。如果你在运算中使用了辅助的存储方式，那么你能找到不用这种方式的算法吗?这道题目在四月份腾讯实习生的二面时候被问到，当时压根就没有时间准备算法的东西，结果在那里胡说...

2018-12-16 16:35:19 1007

原创数据结构算法题/第一个出现一次的字符

在一个字符串中找到第一个只出现一次的字符。使用哈希LinkedHashMap（key是有序的），不能用HashMap（key是无序的）1 LinkedHashMap构建key是字符value就是count值2 查询LinkedHashMap...

2018-12-14 18:22:47 181 1

原创数据结构算法题/单个字符串，两个字符串，多个字符串相关算法题

1 一个字符串1.1 最长回文子串https://blog.csdn.net/fkyyly/article/details/835417671.2 最长重复子串https://blog.csdn.net/fkyyly/article/details/835081681.3 最长非重复子串https://blog.csdn.net/fkyyly/article/details...

2018-12-14 16:49:07 336

原创海量文本相似度匹配

1 词与词之间的匹配（主要用于分词，单词补全，模板匹配）1.1 一对一KMP1.2一对多前缀树1.3多对多给一个字典，再给一个m长的文本（m长的文本里面包含很多的词），问这个文本里出现了字典里的哪些字。1.3.1 方法一：使用HashMap复杂度是O(maxLengh(word)*length(str))这样和字典的大小没有关系1.3.2 方法二：AC自动机ht...

2018-12-14 10:41:37 2762

转载数据结构算法题/有序矩阵查找

在一个二维数组中，每一行都按照从左到右递增的顺序排序，诶一列都按照从上到下递增的顺序排序，请完成一个函数，输入这样的一个二维数组和一个整数，判断数组中是否包含了该整数。例如下面的二维数组就是每行、没列都递增排序。如果在这个数组中查找数字7，则返回true（找得到）；如果查找数字5，由于数组不含该数字，则返回false。1 2 8 9...

2018-12-13 22:09:31 316

转载 bert之transformer（attention is all you need）

Attention Is All You Need自从Attention机制在提出之后，加入Attention的Seq2Seq模型在各个任务上都有了提升，所以现在的seq2seq模型指的都是结合rnn和attention的模型。传统的基于RNN的Seq2Seq模型难以处理长序列的句子，无法实现并行，并且面临对齐的问题。所以之后这类模型的发展大多数从三个方面入手： input的方向性：...

2018-12-12 18:17:19 1498

转载 NLP预训练语言模型

最近，在自然语言处理（NLP）领域中，使用语言模型预训练方法在多项NLP任务上都获得了不错的提升，广泛受到了各界的关注。就此，我将最近看的一些相关论文进行总结，选取了几个代表性模型（包括ELMo [1]，OpenAI GPT [2]和BERT [3]）和大家一起学习分享。1. 引言在介绍论文之前，我将先简单介绍一些相关背景知识。首先是语言模型（Language Model），语言模型简单来...

2018-12-12 17:53:20 1530 1

原创 bert介绍和使用

pretrain两个任务：论文不使用传统的从左到右或从右到左的语言模型来预训练BERT。相反，使用两个新的无监督预测任务对BERT进行预训练。1 预测词双向采用MLM（mask language model）[只预测masked words而不是重建整个句子]为了达到真正的bidirectional的LM的效果，作者创新性的提出了Masked LM，但是缺点是如果常常把一些词m...

2018-12-11 20:50:51 20476 11

转载数据结构算法题/两个已排序数组的交集和并集

两个已排序数组的交集和并集问题：给你两个排序的数组，求两个数组的交集。比如： A = 1 3 4 5 7， B = 2 3 5 8 9，那么交集就是 3 5.思路：1. 每一次从B数组中取一值，然后在A数组里逐个比较，如果有相等的，则保存。该算法复杂度为 O(MN). M, N 分别为数组 A B 的长度。2. 因为A B 都排过序，所以，每一次从B数组取值后，可以利用二分...

2018-12-09 15:02:29 641 1

转载 PCA

　　主成分分析（Principal components analysis，以下简称PCA）是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA，下面我们就对PCA的原理做一个总结。当我们将数据集从n维降到n'维时，需要找到最大的n'个特征值对应的特征向量。这n'个特征向量组成的矩阵W即为我们需要的矩阵。对于原始数据集，我们只...

2018-12-03 15:36:43 301

转载特征分解和SVD奇异值分解

　　奇异值分解(Singular Value Decomposition，以下简称SVD)是在机器学习领域广泛应用的算法，它不光可以用于降维算法中的特征分解，还可以用于推荐系统，以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结，并讨论在在PCA降维算法中是如何运用运用SVD的。https://www.cnblogs.com/pinard/p/6251584.ht...

2018-12-03 13:46:59 502

知识图谱白皮书2019

知识图谱始于20世纪50年代，至今大致分为三个发展阶段:第一阶段 (1955年—1977年)是知识图谱的起源阶段，在这一阶段中引文网络分析开始成为一种研究当代科学发展脉络的常用方法;第二阶段(1977年-2012 年)是知识图谱的发展阶段，语义网得到快速发展，“知识本体”的研究开始成为计算机科学的一个重要领域，知识图谱吸收了语义网、本体在知识组织和表达方面的理念，使得知识更易于在计算机之间和计算机与人之间交换、流通和加工;第三阶段(2012年—至今)是知识图谱繁荣阶段， 2012年谷歌提出Google Knowledge Graph，知识图谱正式得名，谷歌通过知识图谱技术改善了搜索。

2020-11-05