自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

rory0114的博客

自学nlp,hadoop,python写leetcode

  • 博客(44)
  • 收藏
  • 关注

原创 零基础学nlp【7】 BERT ,transformer应用,预训练模型

零基础学nlp【7】 BERT论文:Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.1 前言本来今天准备写 convol...

2019-03-14 19:04:17 895

原创 Roulette Wheel method 轮盘选择法

这两天在看VRP问题的资料,无论在遗传算法还是蚁群算法中,都会提到轮盘选择法。比如在遗传算法对种群进行选择的时候会用到,蚁群算法中每一个蚂蚁按照信息素浓度不同有概率的随机选择路径时也会用到,接下来就介绍一下这个轮盘选择法是怎么样运行的。1)根据计算方法对每一个被选择项计算相应的被选择概率,如下图所示有五个被选择项分别对应p1—p52)接下来就是随机选择,在现实中随机选择就是吧这五个值花在一个圆...

2019-08-12 11:21:00 6491 1

原创 2019腾讯算法大赛 GSP(Generalized Second-Price)竞价机制介绍

今年的腾讯广告算法大赛要开始了,由于最近没什么事做,想着也来参加一波,就先看了看题目,发现里面涉及到了GSP(Generalized Second-Price)竞价机制,最后要求的是日曝光,我估摸着这个日曝光的预测和这个竞价机制应该还是有一些关系的,所以干脆来了解一下这个竞价机制。1、2019腾讯广告算法大赛题目完整的手册还没出,题目简单介绍如下:腾讯效果广告采用的是GSP(Genera...

2019-04-01 17:08:32 3988

原创 用python写leetcode【19】----四数相加 II(454)

四数相加 II(454)题目给定四个包含整数的数组列表 A , B , C , D ,计算有多少个元组 (i, j, k, l) ,使得 A[i] + B[j] + C[k] + D[l] = 0。为了使问题简单化,所有的 A, B, C, D 具有相同的长度 N,且 0 ≤ N ≤ 500 。所有整数的范围在 -228 到 228 - 1 之间,最终结果不会超过 231 - 1 。例如:...

2019-03-27 18:54:29 235 1

原创 python 面试题

lambda函数python中的lambda函数,是一类匿名函数,所谓匿名函数就是不用像普通的函数一样定义函数名,而是直接指定变量为函数:a=lambda x:x*xprint(a(3))完成的就是一个对变量x的平方,使用lambda函数主要是为了避免程序中的冗余,通常情况,lambda的表达式只能是单行的。格式如下:lambda parameters:express冒号前是参数,...

2019-03-27 18:09:56 151

原创 用python写leetcode【18】 -- 课程表 II(210)拓扑排序

课程表 II(210)题目现在你总共有 n 门课需要选,记为 0 到 n-1。在选修某些课程之前需要一些先修课程。 例如,想要学习课程 0 ,你需要先完成课程 1 ,我们用一个匹配来表示他们: [0,1]给定课程总量以及它们的先决条件,返回你为了学完所有课程所安排的学习顺序。可能会有多个正确的顺序,你只要返回一种就可以了。如果不可能完成所有课程,返回一个空数组。示例 1:输入: 2,...

2019-03-26 14:19:22 317

原创 用python写leetcode【17】 -- 岛屿的个数(200)

岛屿的个数(200)题目给定一个由 ‘1’(陆地)和 ‘0’(水)组成的的二维网格,计算岛屿的数量。一个岛被水包围,并且它是通过水平方向或垂直方向上相邻的陆地连接而成的。你可以假设网格的四个边均被水包围。示例 1:输入:11110110101100000000输出: 1示例 2:输入:11000110000010000011输出: 3思路使用dfs搜索,被搜索过...

2019-03-26 10:55:31 299

原创 nlp项目实践古诗创作tensorflow ---(4)模型构造

之前的几节已经介绍了数据集的准备以及数据每一个batch的读取,也介绍了实现过程中的一些小错误,这一节来介绍整个模型的构建。seq2seq模型 import tensorflow as tf from tensorflow.contrib import rnn import numpy as np from tensorflo...

2019-03-25 19:27:04 339 1

原创 nlp项目实践古诗创作tensorflow ---(3)训练过程中的错误记录

古诗创作这个项目已经进行了一大半了,在实施过程中遇到了各种各样的问题,虽然很难,但是的确加深了我对许多tf函数的理解。tf.contrib.seq2seq.TrainingHelper和tf.contrib.seq2seq.GreedyEmbeddingHelper这两者分别用于训练阶段和最后的测试阶段。两者的主要作用都是为decoder的输入做准备,在训练时使用TrainingHelpe...

2019-03-25 11:08:59 220

原创 用python写leetcode【16】 -- 最长连续序列(230)

二叉搜索树中第K小的元素(230)题目给定一个二叉搜索树,编写一个函数 kthSmallest 来查找其中第 k 个最小的元素。说明:你可以假设 k 总是有效的,1 ≤ k ≤ 二叉搜索树元素个数。示例 1:输入: root = [3,1,4,null,2], k = 13/ 1 42输出: 1示例 2:输入: root = [5,3,6,2,4,null,null...

2019-03-23 14:18:50 139

原创 用python写leetcode【16】 -- 打家劫舍(198)

打家劫舍(198)题目你是一个专业的小偷,计划偷窃沿街的房屋。每间房内都藏有一定的现金,影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统,如果两间相邻的房屋在同一晚上被小偷闯入,系统会自动报警。给定一个代表每个房屋存放金额的非负整数数组,计算你在不触动警报装置的情况下,能够偷窃到的最高金额。示例 1:输入: [1,2,3,1]输出: 4解释: 偷窃 1 号房屋 (金额 =...

2019-03-22 19:26:08 160

原创 nlp项目实践古诗创作tensorflow ---(2)reader类编写(获得训练数据batch)

之前介绍了数据集,接下来将数据集生成batch的训练数据,并增加一些符号以及转换成数字。整体介绍对于输入的中文,想要在模型中体现,必然不可能以汉字的形式呈现,而是使用embedding将这个字对应到一个n维的向量中去,而为了能够较快的完成这个对应任务,需要首先把汉字转换成一个序号,由于使用了别人训练好的embedding,因此也要使用别人的字符序号。将一句话转换成序号后,还需要做一些“加...

2019-03-22 18:39:51 357

原创 用python写leetcode【15】 -- 最长连续序列(128)

最长连续序列(128)题目给定一个未排序的整数数组,找出最长连续序列的长度。要求算法的时间复杂度为 O(n)。示例:输入: [100, 4, 200, 1, 3, 2]输出: 4解释: 最长连续序列是 [1, 2, 3, 4]。它的长度为 4。思路我的想法是,建立一个字典m,key是数字,value是对应的该数字连续的长度,更新的方法是对于遍历的每一个数k,如果k-1或者k+1已...

2019-03-22 17:45:29 262 1

原创 numpy 矩阵以及dict保存文件与读取(序列化与反序列化)方法

在编写seq2seq生成古诗的代码中,由于使用了训练好的字向量,需要读入程序中,并且还有将字转换为序号的字典也需要读入内存中,因此需要使用序列化与反序列化的方法保存读取这两个文件。dict的序列化与反序列化with open("word2int.txt", "wb") as f: pickle.dump(word2int,f)with open("word2int.txt", "rb...

2019-03-21 15:47:33 3043

原创 从零开始大数据【1.5】-- mapreduce中combiner

从零开始大数据【1.5】-- mapreduce中的排序+自定义WritableComparable文章目录从零开始大数据【1.5】-- mapreduce中的排序+自定义WritableComparablecombiner什么是combiner?为什么要用combiner?什么时候不能用combiner?代码combiner什么是combiner?combiner和reducer一样,也...

2019-03-20 20:54:21 218

原创 用python写leetcode【14】 -- 二叉树中的最大路径和(124)

二叉树中的最大路径和(124)题目给定一个非空二叉树,返回其最大路径和。本题中,路径被定义为一条从树中任意节点出发,达到任意节点的序列。该路径至少包含一个节点,且不一定经过根节点。示例 1:输入: [1,2,3] 1 / \ 2 3输出: 6示例 2:输入: [-10,9,20,null,null,15,7]-10/ 9 20/ 15 7输出:...

2019-03-20 19:16:47 423

原创 nlp项目实践古诗创作tensorflow ---(1)数据集准备

之前一直在看前几天找到的seq2seq写对联的源码,发现它的源码好多都不是那么普遍通用的,学习他的或许不如自己写一个,所以模仿他的思路,我打算用古诗词的数据集,做一个可以自己创作古诗的模型。数据搜集使用了这个数据集。预处理由于在之前的论文中提到将长度大致一致的放在一起训练可以提高训练的效率,因此希望通过预处理将这些诗词按字数排序,每一行分为上下句。为了完成这个,结合之前一直在看mapr...

2019-03-20 18:52:27 2058

原创 用python写leetcode【13】 -- 至少有K个重复字符的最长子串(395)

至少有K个重复字符的最长子串(395)题目找到给定字符串(由小写字符组成)中的最长子串 T , 要求 T 中的每一字符出现次数都不少于 k 。输出 T 的长度。示例 1:输入:s = “aaabb”, k = 3输出:3最长子串为 “aaa” ,其中 ‘a’ 重复了 3 次。示例 2:输入:s = “ababbc”, k = 2输出:5最长子串为 “ababb” ,其中...

2019-03-20 13:00:38 687

原创 seq2seq对联生成解读【DAY 3】--seq2seq模型的构造(decoder)

文章目录1 源码2 代码解析2.1 attention_decoder_cell2.2 decoder_projection2.3 train_decoderinfer_decoder1 源码仍然是seq2seq.py程序的一部分,今天主要学习decoder部分。 def attention_decoder_cell(encoder_output, in_seq_len, num_unit...

2019-03-18 14:26:54 892

原创 seq2seq对联生成解读【DAY 2】--seq2seq模型的构造(encoder)

文章目录1 源码2 代码解析2.1 getLayeredCell2.2 bi_encoder1 源码有关encoder的源码如下import tensorflow as tffrom tensorflow.contrib import rnnfrom tensorflow.python.layers import core as layers_core #返回了加了droupou...

2019-03-18 12:56:09 582

原创 用python写leetcode【12】 -- 前K个高频元素(347)

文章目录前K个高频元素(347)题目思路代码周末生病了,现在还没好。。。。先写点简单的。前K个高频元素(347)题目给定一个非空的整数数组,返回其中出现频率前 k 高的元素。示例 1:输入: nums = [1,1,1,2,2,3], k = 2输出: [1,2]示例 2:输入: nums = [1], k = 1输出: [1]说明:你可以假设给定的 k 总是合理的,且 1...

2019-03-18 11:19:37 180

原创 用python写leetcode【11】 -- 有序矩阵中第K小的元素(378)

文章目录有序矩阵中第K小的元素(378)题目思路代码有序矩阵中第K小的元素(378)题目给定一个 n x n 矩阵,其中每行和每列元素均按升序排序,找到矩阵中第k小的元素。请注意,它是排序后的第k小元素,而不是第k个元素。示例:matrix = [[ 1, 5, 9],[10, 11, 13],[12, 13, 15]],k = 8,返回 13。说明:你可以假设 k...

2019-03-15 12:27:41 522

原创 用python写leetcode【10】 -- 数据流的中位数(295)

文章目录数据流的中位数(295)题目思路代码一今天起每文两道题改成每个文章一道题,这样阅读起来比较方便。数据流的中位数(295)题目中位数是有序列表中间的数。如果列表长度是偶数,中位数则是中间两个数的平均值。例如,[2,3,4] 的中位数是 3[2,3] 的中位数是 (2 + 3) / 2 = 2.5设计一个支持以下两种操作的数据结构:void addNum(int num) -...

2019-03-15 11:23:40 413

原创 seq2seq对联生成解读【DAY 1】--了解每个文件是干什么的

之前看了几篇seq2seq的论文,也自己学了简单的tensorflow,心里觉得应该做一些实际的项目,这样以后找实习有的说,但是发现nlp的每一个项目都不容易,对于文本分类,情感提取等问题,觉得不太有创造力不好玩,本来想做一个聊天机器人,但是网上资料太少,后来看到github上的利用seq2seq写对联觉得这是一个很好的例子,又是中文的符合工作的实际需要,又采用了seq2seq模型,并且从程序到...

2019-03-14 20:51:59 739

原创 从零开始大数据【1.4】-- mapreduce中的排序+自定义WritableComparable

从零开始大数据【1.4】-- mapreduce中的排序+自定义WritableComparable文章目录从零开始大数据【1.4】-- mapreduce中的排序+自定义WritableComparable上期回顾:mapreduce中的排序实际案例编写bean对象mapreduce编程mapperreducerdriver运行上期回顾:第二节中,我们定义了一个新的数据类型作为mapred...

2019-03-14 20:22:35 284

原创 用python写leetcode【9】 --搜索二维矩阵 II(240)

文章目录搜索二维矩阵 II(240)题目思路代码今天起每文两道题改成每个文章一道题,这样阅读起来比较方便。搜索二维矩阵 II(240)题目编写一个高效的算法来搜索 m x n 矩阵 matrix 中的一个目标值 target。该矩阵具有以下特性:每行的元素从左到右升序排列。每列的元素从上到下升序排列。示例:现有矩阵 matrix 如下:[[1, 4, 7, 11, 15]...

2019-03-14 13:37:43 298

原创 用python写leetcode【7】 --两个数组的交集 II(350)、递增的三元子序列(334)

文章目录两个数组的交集 II(350)题目思路代码递增的三元子序列(334)题目思路代码两个数组的交集 II(350)题目给定两个数组,编写一个函数来计算它们的交集。示例 1:输入: nums1 = [1,2,2,1], nums2 = [2,2]输出: [2,2]示例 2:输入: nums1 = [4,9,5], nums2 = [9,4,9,8,4]输出: [4,9]说明:...

2019-03-14 13:30:39 213

原创 用python写leetcode【8】 --除自身以外数组的乘积(238)、最小栈(155)

文章目录两个数组的交集 II(350)题目思路代码递增的三元子序列(334)题目思路代码两个数组的交集 II(350)题目给定两个数组,编写一个函数来计算它们的交集。示例 1:输入: nums1 = [1,2,2,1], nums2 = [2,2]输出: [2,2]示例 2:输入: nums1 = [4,9,5], nums2 = [9,4,9,8,4]输出: [4,9]说明:...

2019-03-14 12:18:59 180

原创 从零开始大数据【1.3】-- mapreduce中的分区(设置多个reducer)

从零开始大数据【1.3】-- mapreduce中的分区文章目录从零开始大数据【1.3】-- mapreduce中的分区上期回顾:主要内容真实案例代码编写运行结果总结上期回顾:上一期自定义了mapreduce中kv对可以用的数据类型。并且使用了一个谷歌应用商场数据作为数据集。接下来的案例都会使用这个数据集,在这一节中将学会如何自定义mapreduce过程中的分区。主要内容所谓分区,即re...

2019-03-13 19:26:50 933

原创 零基础学nlp【6】 self attention(Attention is all you need)

零基础学nlp【6】 self attention论文:Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems. 2017: 5998-6008.1 前言前几节已经介绍了有关attention机制以及其各种...

2019-03-13 16:26:33 1233

原创 用python写leetcode【6】 --乘积最大子序列(152)、旋转数组(189)

文章目录乘积最大子序列(152)题目思路代码旋转数组(189)题目思路代码乘积最大子序列(152)题目给定一个整数数组 nums ,找出一个序列中乘积最大的连续子序列(该序列至少包含一个数)。示例 1:输入: [2,3,-2,4]输出: 6解释: 子数组 [2,3] 有最大乘积 6。示例 2:输入: [-2,0,-1]输出: 0解释: 结果不能为 2, 因为 [-2,-1] ...

2019-03-13 12:33:26 245

原创 从零开始大数据【1.2】-- 自定义bean对象(数据类型)用于mapreduce task中(简单明了,详细直观)

从零开始大数据【1.2】-- 自定义bean对象(数据类型)用于mapreduce task中文章目录从零开始大数据【1.2】-- 自定义bean对象(数据类型)用于mapreduce task中上期回顾:自定义bean对象注意点实际案例编写bean对象mapreduce编程mapperreducerdriver运行总结上期回顾:上一节中,介绍了最简单的mapreduce框架,编写了map,...

2019-03-12 22:24:14 674 1

原创 零基础学nlp【5】 hard attention 和 soft attention(Show, attend and tell: Neural image caption generation )

零基础学nlp【5】 hard attention 和 soft attention论文:Xu K, Ba J, Kiros R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]//International conference on machine learning...

2019-03-12 14:07:52 1258

原创 用python写leetcode【5】 --字符串中的第一个唯一字符(387)、反转字符串(344)

文章目录字符串中的第一个唯一字符(242)题目思路代码反转字符串(344)题目思路代码字符串中的第一个唯一字符(242)题目给定一个字符串,找到它的第一个不重复的字符,并返回它的索引。如果不存在,则返回 -1。案例:s = “leetcode”返回 0.s = “loveleetcode”,返回 2.注意事项:您可以假定该字符串只包含小写字母。思路很简单直接看代码代码 ...

2019-03-12 10:40:29 168

原创 零基础学nlp【4】 global attention 和 local attention(Effective approaches to attention-based neural mt)

零基础学nlp【4】 global attention 和 local attention论文:Luong M T, Pham H, Manning C D. Effective approaches to attention-based neural machine translation[J]. arXiv preprint arXiv:1508.04025, 2015.主要内容基于...

2019-03-11 20:05:47 1361

原创 用python写leetcode【4】 --单词搜索 II(212) (dfs+前缀树/字典树)

文章目录单词搜索 II(212)题目过程代码一代码二代码三总结今天写了一道差点把我心太搞炸的题目 单词搜索 II(212),其中关于前缀树的方法参考前缀树单词搜索 II(212)题目单词搜索 II给定一个二维网格 board 和一个字典中的单词列表 words,找出所有同时在二维网格和字典中出现的单词。单词必须按照字母顺序,通过相邻的单元格内的字母构成,其中“相邻”单元格是那些水平相邻...

2019-03-11 15:40:56 1040

原创 用python写leetcode【3】 --有效的字母异位词(242)、实现 Trie (前缀树)(208)

分割回文串(131)题目给定一个字符串 s,将 s 分割成一些子串,使每个子串都是回文串。返回 s 所有可能的分割方案。示例:输入: “aab”输出:[[“aa”,“b”],[“a”,“a”,“b”]]思路代码 class Solution: def partition(self, s): """ :ty...

2019-03-09 20:09:05 230

原创 零基础学nlp【3】 RNN encoder-decoder 与seq2seq

零基础学nlp【3】 RNN encoder-decoder 与seq2seq论文:Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[C]//Advances in neural information processing systems. 2014: 3104-3112.C...

2019-03-09 15:16:43 504

原创 从零开始大数据【1.1】-- 在本地模式运行第一个mapreduce程序(简单明了!简单理论学习,直接动手写代码!)

从零开始大数据【1.1】-- 在本地模式运行第一个mapreduce程序文章目录从零开始大数据【1.1】-- 在本地模式运行第一个mapreduce程序写在前面:什么是map和reduce?mapreduce编程mapperreducerdriver运行本地模式运行结果下一章介绍写在前面:之前没有接触过linux,没有接触过java,更没有接触过hadoop,spark。但是由于专业相关,决...

2019-03-09 11:24:11 491

原创 零基础学nlp【2】 注意力机制(Neural machine translation by jointly learning to align and translate)

零基础学nlp【2】 注意力机制论文:.Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014论文快读,论文理解

2019-03-08 16:49:51 1044

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除