自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 数据结构——剑指offer

文章目录1、二维数组查找2、树的各种遍历3、重建二叉树4、两个栈实现队列5、两个栈实现队列1、二维数组查找在一个二维数组中(每个一维数组的长度相同),每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。[ [1,2,8,9],[2,4,9,12],[4,7,10,13],[6,8,11,15]]# -*- coding:utf-8 -*-class Solution: # array 二维列表

2021-05-19 20:45:00 205

原创 轻量级虚拟化技术——Docker(一)

文章目录一、为什么要虚拟化二、什么是虚拟化三、虚拟化技术分类(1)全虚拟化技术(2)半虚拟化技术(3)寄居架构(4)裸金属架构四、Docker与传统技术对比五、Docker技术六、Docker重要概念一、为什么要虚拟化虚拟化前:1、系统资源利用率低。经调查,服务器只有5%的资源得到利用。2、每台主机一个操作系统,且在一个电脑上运行多个进程会遭遇冲突。3、硬件成本高昂且不够灵活。虚拟化后:1、打破系统和硬件的相互依赖。2、强大安全和故障的隔离。3、通过封装到虚拟机,管理程序和应用程序为单一个

2021-04-11 13:58:44 3195

原创 自然语言炼丹之路(三之十)筑基丹SGM

SGM:Sequence Generation Model for Multi-Label Classification 使用序列生成模型做多标签文本分类这是北京大学Pengcheng Yang在2018年发在Coling上的当年的best paper。本文首次提出用序列生成的角度来做多标签分类。因为文本不同部分对不同标签的重要性不同,且多标签之间是具有相关性的,之前的做法都忽略了这两点,所以作者提出了这种基于注意力机制的序列生成模型做多标签文本分类。使用seq2seq解决标签间相关性,使用注意力机制解

2021-01-13 11:58:46 221

原创 自然语言炼丹之路(三之九)筑基丹han_attention

Hierarchical Attention Networks for Document Classification 用层次注意力网络来做文档分类这是卡内基梅隆大学/微软研究院的yang zichao在2016发在NAACL上的。提出了一种层次注意力机制,在词级别和句子级别用两种注意力机制来选择重要信息。之前的文本分类忽视了不同句子和不同词语对文本分类重要性不同,是隐式去学习到这点,但文本过大时可能会覆盖重要词句的贡献,所以使用层次attention去解决这点。另外,同样词句在不同上下文重要性肯定也是不

2021-01-12 19:04:19 377

原创 自然语言炼丹之路(三之八)筑基丹attention

Neural Machine Translation By Jointly Learning to Align and Translate 联合学习对齐和翻译的神经机器翻译模型这是德国不莱梅雅各布大学的Dzmitry Bahdanau在2015年发布在ICLR上的。文章目录Neural Machine Translation By Jointly Learning to Align and Translate 联合学习对齐和翻译的神经机器翻译模型背景知识(一)对齐翻译背景知识(一)对齐翻译翻译的

2021-01-11 21:32:07 259

原创 自然语言炼丹之路(三之七)筑基丹seq2seq&deep_nmt

Sequence to Sequence Learning with Nerual Networks 使用神经网络学习序列到序列的任务例如机器翻译、摘要生成、机器对话、阅读理解等都是输入一个序列(句子、短语等),输出一个序列(句子、短语等)的任务,也可以说是序列生成任务或者Encoder——Decoder任务。本篇主要是在机器翻译上的工作。这篇文章是谷歌的ilya Sutskever在2014年发在NIPS上的。文章目录Sequence to Sequence Learning with Nerual

2021-01-10 20:26:21 370

原创 《规模》读书笔记

文章目录一、大背景一、大背景所有的复杂性和多样性背后,可能存在一种简单的潜在规律。规模缩放问题:一个系统在规模变化时如何做出响应。这个概念进入了生活的方方面面,让我们去发现、理解、解决、利用。例如如何以节约成本的高效方式以小推大去建立桥梁、建筑等。如果想知道并解决小白鼠的研究如何关联到人身上,就需要知道如何可靠地从老鼠身上按比例放大到人类身上。规模缩放的例子展示了这方面的一些规律:1、动物代谢率与体重的3/4次幂成正比线性关系(克莱伯定律)。城市作为复杂系统代谢率和人口数也服从这个比例。

2021-01-09 17:57:24 1311

原创 自然语言炼丹之路(三之六)筑基丹fasttext

Bag of tricks for Efficient Text Classification 对于高效率文本分类的技巧这是FaceBook的Armand Joulin 2017发表在EACL上的,四作是word2vec的作者。EACL和NAACL是ACL的两个分别在欧洲和北美洲办的子会议。已经开源在fasttext.cc上,更详细的介绍和使用可以去这儿查看。背景知识之前的深度学习文本分类模型效果好,不需要特征工程,但是速度太慢,无法在大规模分类任务上使用。基于机器学习的则多数是线性分类模型,速度快,

2021-01-05 15:14:19 145 1

原创 数据结构与算法

数据结构与算法一、排序算法Chiglishauthor: Beilop Jiaoemail: 781933206@qq.comTime: 2020-11-17 13:441、binary_search(O(log n))这个算法的思想类似于猜数游戏:现在我们需要从1到9里猜出来预设好的一个数字。一般我们不会直接从1猜到9,这样如果目标数字是9,我们需要猜9次。如果我们从5开始猜,显然第一次猜小了,下一次我们猜7,以此类推,只需要最多4次就可以猜到我们需要的。可以看到,我们每次把数字分成了

2020-12-28 18:47:48 348

原创 自然语言炼丹之路(三之五)筑基丹CharCNN

褚采薇接到召唤,当即出了宫,骑马跟随侍卫来到灵宝观,穿过一座座花园,经过一座座人宗祖师殿,来到道观深处的小院。“采薇姑娘,请吧。”院门口站着一位蟒袍老太监,微笑着做了“请”的手势。褚采薇“嗯”了一声,踏着轻盈的步调穿过小院,跨入静室,裙摆轻轻摇荡。静室内,元景帝和洛玉衡隔着一张茶几对坐,茶几放着一本道门典籍,一只香炉,纤细的青烟升腾。褚采薇扫了一眼,见桌上没有好吃的糕点,失望的收回目光,拱手行礼:“见过陛下,见过国师。”元景帝审视着司天监白衣术士眼里的小师妹,杏眼大而明亮,脸蛋圆润,甜

2020-12-28 18:42:46 148 2

原创 自然语言炼丹之路(三之四)筑基丹TextCNN+代码

Convolutional Neural Networks for Sentence Classification 基于卷积神经网络的句子分类文章目录Convolutional Neural Networks for Sentence Classification 基于卷积神经网络的句子分类这是纽约大学的Yoon Kim在2014年发布在EMNLP上的,提出用预训练的词向量和卷积神经网络做句子的文本分类,简单有效,在多个数据集上取得不错的效果。...

2020-12-27 19:28:58 266

原创 自然语言炼丹之路(三之三)筑基丹char_embedding

从字符中生成嵌入:用于开放词表示的组合字符模型 Finding Function in Form:Compositional Character Models for Open Vocabulary Word Representation本文是卡耐基梅隆大学Wang Ling在2015年EMNLP发表的,提出新的从字符形式学习语义语法等复杂形式结构学得词向量的方法。单词间不该相互独立,形式一致性会导致功能一致性,本文通过双向LSTM学得这种一致性。在语言模型任务和词性标注任务(POS)均取得不错的效果。

2020-12-23 13:36:58 721

原创 自然语言炼丹之路(三之二)筑基丹GloVe(2)

文章目录我们知道可以通过向量的简单算术运算来表示词间的语法、语义规律,如king-queen=man-woman等。虽然对如何学习到这种规律仍不清楚,但Jeffrey提出了对数双线性回归模型来利用全局统计信息和局部上下文信息更好地学习到这种规律。同时,为了高效训练,只在共现矩阵的非0位置进行训练。...

2020-12-22 08:44:26 136

原创 自然语言炼丹之路(三之二)筑基丹GloVe(1)

基于全局信息的单词向量表示 Global Vectors for Word Representation这是2014年Standford的Jeffrey Pennington发表的与word2vec齐名的一种词向量表示方法。可以同时使用全局统计信息和局部上下文信息学得很好的词向量。作者因为理论物理出身,公式相对其他模型复杂,他本人的推导十分详尽。之前提到过的矩阵分解使用了全局信息,而word2vec用到了局部信息,GloVe同时学习二者。文章目录基于全局信息的单词向量表示 Global Vectors

2020-12-20 19:52:16 129

原创 程序猿必备神器网站

文章目录交友网站报错查找手册速查刷题神器学习资源论文查找数据查找交友网站1、github ------ 全球最大同性交友网站报错查找1、stack overflow ------ %99的报错可以在这里找到,我相信你没看到我的错误手册速查1、w3cschool ------ 一把通向技术世界的钥匙2、菜鸟教程 RUNOOB ------ 学的不仅是技术,更是梦想!刷题神器1、[leetcode]2、[牛客]学习资源1、bilibili ------ 国内最全最大质量最高的学习网站2

2020-12-19 11:17:31 337 1

原创 自然语言炼丹之路(三之一)筑基丹word2vec(4)

我们在word2vec里的炼丹术有几个特殊的技巧:1、词典大小和词向量维度的比对:一般在100-500,选初始词典大小四分之一次方是不错的选择。当然,词典过大的可以酌情改变,虽然说维度数和原始数据量越多越好,但增大维度数的方式越往后提升效率会越来越慢,所以最好不超过200。2、出现次数最小值一般设2-10之间,小于设定数的删掉。当然,词典过大过小可以酌情改变。...

2020-12-19 10:10:07 183 2

原创 自然语言炼丹之路(三之一)筑基丹word2vec(3)

文章目录

2020-12-17 17:38:46 384

原创 自然语言炼丹之路(三之一)筑基丹word2vec (1)

筑基丹之Word2vec

2020-12-17 13:40:12 322

原创 自然语言炼丹之路(三之一)筑基丹word2vec(2)

对比模型(一)NNLM(前馈神经网络)(1)模型构成这是2003年Bengio《A Neural Probabilistic Language Model》第一次提出word2vec时的模型。(可以点进去瞅瞅)首先word2id,用id作为数据传入模型(因为计算机不认识单词),使用one-hot加word2vec得到词向量,拼接词向量后送进隐藏层(可以简单理解为通过映射得到每个词的向量表示,然后拼成一句话)。隐藏层就是以tanh为激活函数的全连接层。输出层是一个全连接层,后面接softmax来

2020-12-17 13:37:57 186

原创 自然语言炼丹之路(二之一)锻体丹基础知识储备(1)

一些重要的基础概念1、语言模型计算一个句子是句子的概率的模型。可以简单理解为,计算一段文本在语法和语义上是通顺且含义符合常理的句子的概率。举个简单的栗子,如:句子概率详细作者君天下第一帅!1.0语句通顺,符合常理作者的文章我看不懂。0.2语句通顺,但语义不大符合常理作者真飞是文采扬。0.0001语法不通顺再比如:输入ziranyuyanchuli可能对应的句子概率孜然雨燕处理0.04自然语言处理0.9语言模

2020-12-15 21:36:13 387 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除