自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

带你飞

建立这个博客是为了更好的学习以及归纳分析

  • 博客(44)
  • 资源 (4)
  • 收藏
  • 关注

原创 职业规划

我的简历表现来看,目前基础应该是够的,但是没有突出领域的贡献,然而这个东西应该是能够决定面试官能否要我的关键。我可以理解为当前公司可以直接去进行应用参加到工作中的。比如强化学习,比如图论的学习, 比如联邦学习。这三者中取一个作为我秋招面试的大招,也就是所谓的研究领域侧重点。强化学习和图论更多的是指标的提升,这个是基石,然后联邦学习很有可能是后面的大方向,也就是如何结合分布式,密码学,深度学习来帮助训练网络。使得获得更多原先无法考虑的数据,但是可以在模型中安全的使用。...

2021-04-29 11:57:33 62

原创 联邦学习-导论

前沿:最近看到一篇讲解联邦学习的入门文章,感觉不错,拿过来先存一下。联邦学习的目标:打破不同团体之间由于数据隐私安全而导致无法进行集中式机器学习训练的方法。说白了就是A公司可以拿B公司的数据训练模型,但是其实A公司并不能显性的看到B公司的数据。详解联邦学习Federated Learning...

2021-04-29 11:18:39 66

原创 链表-求给定二叉树结点中序遍历的下一个结点

题目:二叉树的下一个结点前沿: 这个题目刚开始分析的时候,考虑很不完全,两种情况的讨论其实都没有很好的讨论,但是其中针对父亲结点迭代这种想的比较清楚。讲解: 题目有三种情况:本身是左孩子,寻找父亲;本身是右孩子,寻找寻找一个祖宗(当前结点是由这个祖宗的左孩子分支延申出来的);本身是存在右孩子,那么寻找当前右孩子的最靠左的结点指针。代码:/*struct TreeLinkNode { int val; struct TreeLinkNode *left; struc

2021-04-29 09:39:03 102

原创 字符串-让人恶心的条件判断

题目: 表示数值的字符串前沿: 这个题目真心让人恶心,我做这个题目总共花了2个小时。。。从捡起到放弃,在捡起。想要不看样例直接ac,太tm难了。许多情况你觉得错误的,不好意思,牛客网说我允许这个是正确的情况。class Solution {public: /** * 代码中的类名、方法名、参数名已经指定,请勿修改,直接返回方法规定的值即可 * * * @param str string字符串 * @return bool布尔型 *

2021-04-28 10:58:37 93

原创 PLMs-electra

前沿: electra训练模型,可以说是训练框架和预训练任务的一个改良吧。首先整体框架是这样的。原先MLM是通过对[mask]位置直接进行预测,然后给出损失,也就是交叉熵的计算。然而electra不是,生成器会首先对[mask]位置的部分进行预测,也就是一个MLM任务(可以理解为是对简单的位置先进行预测,然后将难的部分交给了判别器),然后对预测结果,进行判别器预测。此时判别器预测值只有2类,也就是是否是原文中出现过,成功将原先MLM任务转化成为了两个任务,而且。这里面判别器计算需要考虑

2021-04-27 15:58:28 132

转载 残差网络

题目: 残差网络的作用前沿: 在复习准备复试的过程中,突然想到残差网络这个神器,他的作用到底是什么呢?我从知乎大神那了解到下面几种说法。基本概念:深度神经网络中的两朵乌云:梯度消失和梯度爆炸;网络退化问题。网络退化:随着网络深度增加,网络的表现先是逐渐增加至饱和,然后迅速下降[1]。解释1:何凯明说:在前向传播时,输入信号可以从任意低层直接传播到高层。由于包含了一个天然的恒等映射,一定程度上可以解决网络退化问题。并且使得缓解了梯度消失和梯度爆炸的问题,因为部分梯度不会经过更加复杂的网络来

2021-04-27 15:10:23 168

原创 DP-正则表达式的匹配问题

题目: 正则表达式的匹配问题前沿:这个开始的时候没有想到采用dp的方法来进行求解,刚开始想要用迭代和规则判断去做,但是发现这个问题是一个不确定自动机的问题,也就是说针对当前状态会存在多个解的方向,我需要做的是当解没有确定之前需要遍历所有的解。方法一:dpclass Solution {public: /** * 代码中的类名、方法名、参数名已经指定,请勿修改,直接返回方法规定的值即可 * * * @param str string字符串

2021-04-27 11:50:21 143

原创 数学-孩子们的游戏(圆圈中的最后一个数)

题目描述:每年六一儿童节,牛客都会准备一些小礼物去看望孤儿院的小朋友,今年亦是如此。HF作为牛客的资深元老,自然也准备了一些小游戏。其中,有个游戏是这样的:首先,让小朋友们围成一个大圈。然后,他随机指定一个数m,让编号为0的小朋友开始报数。每次喊到m-1的那个小朋友要出列唱首歌,然后可以在礼品箱中任意的挑选礼物,并且不再回到圈中,从他的下一个小朋友开始,继续0…m-1报数…这样下去…直到剩下最后一个小朋友,可以不用表演,并且拿到牛客名贵的“名侦探柯南”典藏版(名额有限哦!!_)。请你试着想下,哪个小朋友会

2021-04-27 09:30:46 119

原创 面试-夸克搜索阿里巴巴一面

前沿: 上周面试了阿里巴巴的夸克搜索部门,整体感觉还可以,但是题目没怎么做好,以为一面挂了没想到还是给过了,这里就记录一下吧。项目:**关键词生成:**关键词生成的项目问挺细的,包括你的想法,如何想的,以及怎么去做的改进,等等。**天池比赛:**讲解一下项目整体,包括你做的优化等等。总之那个比赛因为是自己一个人打的,所以很多东西因为时间问题没来的实现的,有想法的都和面试官去聊,整体聊的还不错,面试官还提到了一个课程学习等,但是不怎么了解就没怎么继续那个话题了。深度学习基础:包括transformer

2021-04-26 14:21:01 1498 2

原创 数组-丑数

例题: 丑数前沿:这个题目给我的启示就是,当从候选集中遴选最优的时候,需要把前面的结果记录下来,然后保证三者的候选同时更新。代码:class Solution {public: int GetUglyNumber_Solution(int index) { //可以理解为所有丑数都一定包含0个或多个2,3,5 // 1 2 3 4 5 6 8 9 10 12 15 16 if(index<=0) return 0; int x=0

2021-04-25 11:44:22 40

原创 数学-整数中出现1的个数

例题:整数中出现1的个数前沿: 这个题目做过两次了,但是还是没怎么懂,比较模糊,现在将这个题目记录下来,方便后面自己再来进行攻克。方法1:按照位数来进行计算实际的1的个数class Solution {public: int NumberOf1Between1AndN_Solution(int n) { //0-9 1 //0 100 10 + 10 //0-1000 10*20 + 100 //0-10000 300*10

2021-04-25 09:44:47 98

原创 dfs-全排列

题目:字符串的排序前沿:本文主要是给出一种深度优先搜索的写法,读者可以将它作为dfs写法的一种记忆把,深度搜索本身需要对搜索的过程进行记录,所以考虑到这个部分,记录方法就是多种多样的,下面给出一种。还有就是给出一个参考网址是深搜和回溯的区别,大家清楚的自动忽略好吧。回溯和深度优先搜索的关系方法一:class Solution {public: vector<string> Permutation(string str) { if(str.size()==0)

2021-04-24 10:26:11 76

原创 论文写作-调研如何去写你的论文

前沿: 最近要开始动手写自己的第一篇论文啦。从刚开始的定题到后面的没有人管,再到后面的痛定思痛准备比赛,1月份重新自己找想法,再然后就是无数次的实验失败,最终在前几天把实验效果提上去了,并且模型日趋完善。整个过程真的很难受,但是收获颇多,后面如果有机会会单独开出一个专题,讲解作为一个散养的硕士如何开始自己的第一篇文章,我自己已经被坑过许多,希望后面如果这个专题开出来能够帮助读者很多,研途漫漫,且行且珍惜。相关资料:如何写一篇高分英文论文(下)干货!按这个顺序写英文论文更加高效...

2021-04-23 22:12:39 100

原创 论文写作-Letex使用

前沿: 最近要开始撰写我的第一篇小论文了,师兄们推荐说用这个工具,菜鸡的我只能选择自己把这个玩意好好学习学习了。下面是从网上找的一些Letex学习档案,我这里进行总结一下,方便自己后续查找。如何从零开始,入门 LaTeX?...

2021-04-23 22:01:36 406

原创 面试-腾讯后台策略安全岗

前沿: 继上次腾讯PCG挂掉后,腾讯IEG部门把我捞起来了。目前二面过了,怎么说呢,腾讯IEG这个部门两轮都是电话面试,没有做题,但是场景题也就是个人思考偏多,也就是给你对应的业务场景,你需要给出你的解决方案,然后面试官会继续评价你的思考了,继续循序渐进的提出问题,如果一个问题你什么思路都没有,那么肯定挂了。希望这次IEG部门能够面试过啦。真心要花时间好好阅读论文和准备论文和实验了。...

2021-04-23 11:35:03 1296 7

原创 链表-判断一个序列是否是一个二叉搜索树的后序遍历序列

例题: 二叉搜索树的后序遍历序列前沿: 我做这个题目做了2遍了,第一遍已经不清楚了,刚刚做完第二遍,给出两种解法。方法一:检查序列是否符合二叉搜索树的特性。class Solution {public: bool VerifySquenceOfBST(vector<int> sequence) { //递归实现分开判断 int n = sequence.size(); if(n==0) return false;

2021-04-22 11:56:49 100

原创 数组-循环打印

题目:顺时针打印矩阵网址: 顺时针打印矩阵前沿: 这个题目本身不难,但是这里特意拿出来,为的是需要处理数组边界问题,一定要注意这个,这个很重要。代码:class Solution {public: vector<int> printMatrix(vector<vector<int> > matrix) { int m = matrix.size(); int n = matrix[0].size(); if

2021-04-21 17:17:53 306

原创 如何进行文档级别的信息切分

题目: Multi-passage BERT: A Globally Normalized BERT Model forOpen-domain Question Answering

2021-04-20 20:54:38 64

原创 链表-根据中序和前序构建链表

题目: 重建二叉树网址: 重建二叉树前沿: 题目本身就是通过递归实现,模拟如何手动创建二叉树过程即可。代码:/** * Definition for binary tree * struct TreeNode { * int val; * TreeNode *left; * TreeNode *right; * TreeNode(int x) : val(x), left(NULL), right(NULL) {} * }; */class Solu

2021-04-20 11:46:28 69

原创 字符串-Z-字形变换

题目: 6. Z 字形变换网址: https://leetcode-cn.com/problems/zigzag-conversion/前沿: 字符串的题目需要将实际数据进行记录。代码class Solution {public: string convert(string s, int numRows) { if(s.size()<=numRows || numRows==1) return s; vector<string> res(n

2021-04-19 23:55:22 81

原创 DP-接雨水

题目: 42.接雨水网址: https://leetcode-cn.com/problems/trapping-rain-water/submissions/前沿: 这个题目之前做过几次了,但是一直不得要领,今天又做了一次,下面给出动态规划的做法,其实问题的难其实还是难在如何分解问题,也就是将问题拆解。暴力法:DP计算左右当前最高的高度,其实暴力的方法也就是计算当前位置的左右节点,总体时间复杂度是n^2,所以优化的方法就是考虑如何存储左右最高的节点高度。方法一:DP代码如下:class Solu

2021-04-19 21:49:33 67

原创 PTMs-ALBERT

前沿: 本文作者的一个出发点就是当模型的参数量级达到一定程度后,效果提升有限,甚至下降。于是考虑优化模型参数,使得模型的性能并不会下降多少。作者提出两种模型参数压缩的方式。论文: ALBERT: A Lite BERT for Self-supervised Learning of Language Representations目录:embedding的因式分解方式transformer块间的self-attention参数和feed-forward layer的参数共享。考虑到NSP任务太

2021-04-19 20:41:15 100

原创 PTMs-BERT

前沿: 相比于GPT的单向自回归模型,BERT考虑到了利用上下文的双向信息,但是如果同时考虑双向信息,自然自回归的方式就不适宜了,BERT论文作者引入两项新的预训练任务。论文: BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding目录:网络架构预训练微调实现细节BERT-wwmRoberta和BERT的区别ERNIE 1.0 和ERNIE2.0网络架构:一般存在两种类型的be

2021-04-19 17:32:46 105

原创 PTMs-GPT,GPT2

前沿: GPT和ELMo一样是作为自回归模型。相对于ELMo来说,特征提取器换成了transformer。因为不同于LSTM的序列方式,transformer的方式需要考虑避免后面待预测的单词对当前的单词影响,所以需要引入一个masked multi-attention机制,其实就是后面单词被掩码了。论文:Improving Language Understanding by Generative Pre-TrainingLanguage Models are Unsupervised Multit

2021-04-19 17:00:20 174 1

原创 PTMs-ELMo

题目: ELMo基本可以算是第二代预训练模型的开山之作,第一代预训练模型更多考虑的是上下文无关的信息,没有能够考虑语义信息,也就是长时的上下文语义在词嵌入中的作用和语言模型在大规模预料上提前预训练。源码: https://github.com/laihuiyuan/ELMo论文: Deep contextualized word representations 2018目录:了解ELMo的网络架构预训练部分如何进行微调代码解析部分ELMo的网络架构:模型特点:LSTM之间使用残差连

2021-04-19 15:54:20 112 1

原创 预训练模型(PTMs)发展史

前沿: 之前面试的时候被问到预训练模型的发展史之类,在我看来我可能需要更加准确和系统的了解一下预训练模型的发展史了。目录架构如下:PTMs-word2vecPTMs-glovePTMs-ELMoPTMs-GPTPTMs-BERT, Roberta, ALBERTPTMs-XLNet总体的专栏结构参考...

2021-04-19 13:35:25 360

原创 面试-美团一面

前沿: 今天面试了美团的NLP搜索中心,整体给我的感觉我做的和美团不是很相关,并且面试官没有给出他需要的点,感觉不是很合适。问了关键词生成:回答的很罗嗦,没有答到点上去,很多东西的前面说的太多了,根本没有时间聊到合适的点上去。问了文本分类算法:说出三个文本分类算法,不会。。。预训练模型知道哪几个:electra, roberta, bert,说的不是很好,感觉不应该说生僻的,而且很多优点遗忘了。算法题:构建链表有点忘了,而且逻辑上面有点小问题。总体给我的启示:回答项目言简意赅;文本分类需要好好

2021-04-19 11:44:22 119 3

转载 比赛-logging模块

前沿: 写这个logging模块主要是为了给自己填坑,之前一直遇到logging和print分开处理的问题,但是懒得去弄,这几天受不了还是查了一下,下面给出实际的调试,收藏不谢。import logging# 第一步,创建一个loggerlogger = logging.getLogger()logger.setLevel(logging.INFO) # Log等级总开关 此时是INFO# 第二步,创建一个handler,用于写入日志文件logfile = './log.txt'fh

2021-04-17 16:59:16 57

原创 比赛-2021搜狐语义匹配

前沿: 最近在准备2021年搜狐的语义匹配大赛,虽然之前已经打过一次比赛了,但是这次难度相对更大一点,因为官方给的baseline实在没办法继续创新工作,只能自己写一个pytorch版本的。开辟这样一个博客的目的是为了记录自己的学习进度。...

2021-04-17 15:37:05 320

原创 面试总结-腾讯PCGM13搜索中心

提前批最后一天,我基本算是赶上了。本来周围同学对于提前批最后几天的面试都是能推就推,因为怕流程走不完,然后最后你又准备不足,所以基本没人捞你你就完了,但是我想着其实我能准备的都已经搞完了,所以就直接面了,结果还是可以的,下午连着面2面,基本算是走完了技术面试,今天走一个hr面试,希望不要挂在这。爷爷奶奶,外公外婆在天之灵,保佑保佑~~~说一下基本情况:一面:总时1个半小时,说实话我是真的能扯,反正基本1个小时多几分钟都在聊项目,然后估计一面不是很了解我的方向,所以一直再聊,很嗨,所以就导致,时间超了,然

2021-04-14 14:40:59 184

转载 特殊数据结构-线段树

线段树的定义: 二叉搜索树,多用于解决区间问题,但不代表只能解决区间问题。思考三个问题:节点存什么?节点下标是什么?如何建树?给出一个样例讲解节点的存储信息。结论如下: 每个叶子结点的值就是数组的值,每个非叶子结点的度都为二,且左右两个孩子分别存储父亲一半的区间。每个父亲的存储的值也就是两个孩子存储的值的最大值。在实际操作过程中一般不会考虑采用二叉树的链表结构存储线段树,因为无法再O(1)时间复杂度获取节点。故一般采取数组来进行存储。其中绿色下标代表的就是数组下标。其实完全可以发现

2021-04-14 14:27:39 84

原创 特殊数据结构-前缀和

定义: 针对数组A[1,n],,前k个数组元素之和就是前缀和的概念。下面给出样例题:题目: 327. 区间和的个数网址: https://leetcode-cn.com/problems/count-of-range-sum/代码class Solution {public: int countRangeSum(vector<int>& nums, int lower, int upper) { int n = nums.size();

2021-04-14 09:49:21 90

原创 面试总结-百度NLP

前沿: 目前在进行春招面试,主要发现面试各家面试情况不一样,这边主要针对每家不同的面试情况进行一个总结,期待下次一起进步。刚刚面完百度1面和2面,话说2面面试结束没有给3面是不是代表凉凉了。百度这边问了以下推荐和搜索的东西,可以看出推荐和搜索这两个业务在国内还是比较吃香的,也就是说接下来还是要注意针对这两个业务来进行丰富以下相关简历,可以看出这两个还是比较吃香的。...

2021-04-10 16:27:20 86

原创 语言学知识总结

词法分析语法分析 and 句法分析https://baijiahao.baidu.com/s?id=1669122399454668442&wfr=spider&for=pc这应该是比较容易懂的一篇关于语法分析和句法分析语义分析语义分析指运用各种方法,学习与理解一段文本所表示的语义内容,任何对语言的理解都可以归为语义分析的范畴。一段文本通常由词、句子和段落来构成,根据理解对象的语言单位不同,语义分析又可进一步分解为词汇级语义分析、句子级语义分析以及篇章级语义分析。一般来说,词汇级语

2021-04-09 12:03:00 164

原创 字符串-贪心求解

例题: 767.重构字符串网址: https://leetcode-cn.com/problems/reorganize-string/前沿: 这个题目应用场景出现在字符串中,然后去考虑重新排布字符串,使得重新排布的字符串序列能够达到间隔字符串不相等,在没有看答案之前有考虑方法是能不能字符顺序将字符串重新进行一次排序,但是想法很模糊。这里给出两种基于贪心算法的实现算法。方法1:基于最大堆的贪心实现class Solution {public: string reorganizeString

2021-04-09 12:01:32 131

原创 排序-自定义排序规则

例题: 剑指 Offer 45. 把数组排成最小的数网址: https://leetcode-cn.com/problems/ba-shu-zu-pai-cheng-zui-xiao-de-shu-lcof/前沿: 这个题目本身不是一个难题,就是考虑自定义一种排序规则,然后实现,最后按照排序规则输出就可以,拿出来这个题,是为了熟练一下C++的排序函数的注意事项。代码class Solution { static bool cmp(const string& a, const str

2021-04-09 10:48:30 179

原创 结合句子选择器和分开present和absent生成的方法

题目: Select, Extract and Generate: Neural Keyphrase Generation with Syntactic Guidance网址: https://arxiv.org/pdf/2008.01739.pdf前沿: 文章中并没有给出代码,要命的是论文等级也没有,不过这篇论文工作没少做,但是总感觉优点实现细节不清不楚,比如:1.提取器:如何处理选择后的句子和关键词的对应关系,如何处理实际的任务形式;2.生成器:如何使用选择后的句子也没有说明;难道19有文章暗

2021-04-08 21:51:31 410 6

原创 利用交叉文档的attention信息来促进关键词生成

题目: Keyphrase Generation with Cross-Document Attention网址: https://arxiv.org/pdf/2004.09800.pdf代码地址: https://github.com/SVAIGBA/CDKGen前沿: 这篇文章主要创新点在于采用了交叉文档,也就是针对当前文档和他有一定相似度的文档作为输入信息,用文章中的原意就是跨文档注意力和潜藏的话题分布。还有一个就是采用了transformer作为编码器和译码器。个人小想法,他这样做的假设应该

2021-04-08 16:26:28 205

原创 排序-top-k问题

例题: 最小K个数网址: https://leetcode-cn.com/problems/smallest-k-lcci/前沿: 寻找一组任意排序数的最小数问题,一般处理办法有三种:全排列,但是时间复杂度较高堆排序,对数据采用堆存储k个数,控制最大堆或者最小堆,那么最后堆顶元素就是寻找元素快速排序思想,随便找个数,进行一轮快排快排结束,进行数据划分,假设这个数属于第t个t==k,那么返回前t个;t > k,那么问题规模缩小为在前面t-1个数找k个;t < k,说明已经确

2021-04-08 12:03:16 122

原创 排序-归并排序

例题:148. 排序链表网址:https://leetcode-cn.com/problems/sort-list/前沿:这个题目既是链表排序的题目也是常规排序算法的考察,常规解法应该考虑的是插入排序,但是时间复杂度O(n^2)。如果使得时间复杂度降低到O(nlogn)甚至空间复杂度降至O(1)那么只能采用归并排序,堆排序,快速排序(最坏情况也是n*n)。考虑到这题数据存储考虑的是链表数据采用归并排序。归并排序分为自顶向下和自底向上两种,第一种需要使用栈,空间复杂度O(logn),第二种空间复杂度则是O

2021-04-08 11:27:29 129

基于源和答案的问题生成 .pdf

Improving Question Generation with Sentence-Level Semantic Matching and Answer Position Inferring

2021-03-26

有条件文本生成.pdf

Pre-train and Plug-in: Flexible Conditional Text Generation with Variational Auto-Encoders

2021-03-26

numpy的100道金典题

关于NUMpy学习相关练习资料,针对与numpy的基本离开练习

2018-07-12

AdbWinApi.dll文件

解决win10,win8sdk安装出现的adb不能运行的问题,我在这个博客http://my.csdn.net/给出了相关问题的详细解决方案,如有需要的可以去了解。

2017-09-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除