自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

转载 java中HashMap的遍历方法

转:https://blog.csdn.net/gary0917/article/details/79783713 一、使用迭代器 第一种:效率高   Map map = new HashMap();   Iterator iter = map.entrySet().iterator();...

2019-07-11 21:40:34 666 0

原创 常用Hadoop命令

官方文档:http://hadoop.apache.org/docs/r1.0.4/file_system_shell.html 将自己工作中常用的Hadoop命令整理如下: 1. 查看hadoop文件 hadoop fs -ls / 2. 新建文件夹 hadoop dfs -mkdir...

2019-06-12 17:59:17 358 0

原创 常用LINUX命令

1. 查找文件中重复的值 文件中的值 111 222 888 999 111 命令: sort ./test.log | uniq -d 输出: 111 sort命令的常见用法:https://www.cnblogs.com/fulucky/p/8022718.html 2...

2019-05-15 15:51:23 148 0

原创 KMP匹配算法实现

包含匹配算法和获取next数组的方法 class Solution { public int strStr(String haystack, String needle) { if(needle.isEmpty()) return 0; int i=-1...

2019-05-05 23:08:40 409 0

原创 java:键盘输入

1.未知数组长度 逗号分隔的键盘输入 两个变量的输入: Scanner sc=new Scanner(System.in); String line=sc.nextLine().trim(); String[] array=line.split(","); int n=...

2019-04-07 12:36:57 119 0

转载 ssh连接服务器报错:server responded “Algorithm negotiation failes” 解决办法

转自:https://blog.csdn.net/wyx100/article/details/52078985ssh工具下载地址:ssh secure file transferhttp://download.csdn.net/detail/wyx100/9591076问题:ssh连接ubunt...

2018-06-08 13:39:47 2933 1

原创 Linux文本处理之sort,uniq

准备文本:test.txt 按列分别是学号 姓名 年龄 语文 数学 英语成绩 一、sort 1. sort默认:以行为单位对文件进行排序,按ASCII码值进行比较升序输出。 cat test.txt sort test.txt 2. sort -u test.txt...

2020-04-28 23:49:43 29 0

原创 TypeError: a bytes-like object is required, not 'str'

matplotlib画注意力机制的图时,中文坐标不显示,与是加了下载中文字体的代码: def get_matplot_zh_font(): fm = FontManager() mat_fonts = set(f.name for f in fm.ttflist) o...

2020-03-10 09:08:37 107 0

原创 Linux下用parallel并行处理大文件

parallel官网文档: https://www.gnu.org/software/parallel/parallel_tutorial.html 安装parallel (wget -O - pi.dk/3 || curl pi.dk/3/) | bash 使用: 并行化处理文件 ...

2019-12-25 16:34:46 297 0

转载 安装kenlm依赖时报Tomcat错误

报错信息如下: sudo apt-get install aptitude 正在读取软件包列表... 完成 正在分析软件包的依赖关系树 正在读取状态信息... 完成 将会同时安装下列软件: aptitude-common libcwidget3v5 建议安装: apt-xapia...

2019-12-23 17:58:11 73 0

原创 numpy-np.where

np.where()用于三目运算: 如果A%2==0成立,则执行A+1,否则执行A-1 a=array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) >>> np.where(a < 5, a, 10*a) array([ 0,1,2,3,4,...

2019-12-21 16:38:34 57 0

原创 git 工程太大,clone失败的解决办法

设置: git config --global http.postBuffer 524288000 git clone https://XXX.git --depth 1 git clone 是克隆所有历史版本 而 --depth 1 是克隆最近一次的commit, 1 代表克隆深度 ...

2019-12-17 15:17:09 360 0

原创 利用GIZA++和Moses生成双向对齐文件

踩了两周的坑今天终于解决了,本来觉得晚上关于GIZA++生成对齐文件的教程已经很多了没准备写,但是因为我的这个坑我不得不记录一下。利用GIZA++获得单向对齐文件的同时会获得双语词表,但是我从始至终都没看到哪里有什么双语词表。 然后研究了三四天的moses,关于moses的整体步骤分为以下几步:...

2019-12-13 22:56:38 112 0

转载 使用GIZA++进行词对齐

GIZA++的github地址:https://github.com/moses-smt/giza-pp 准备双语语料 zh.txt:源语言 海洋 是 一个 非常 复杂 的 事物 。 人类 的 健康 也 是 一 件 非常 复杂 的 事情 。 将 两者 统一 起来 看 起来 是 一 件 艰巨...

2019-12-13 16:20:56 234 0

原创 统计语言模型工具-kenlm的安装

在最近的工作到需要一个语言模型,为句子打分,本来准备用srilm来做,后来调研发现kenlm无论在内存还是速度上都比srilm好很多。srilm很好安装,安装过程中基本没遇到什么问题,kenlm的安装就是一个大坑,至今自己都觉得是玄学安装,这边记录下安装过程。 源码地址:https://gith...

2019-12-11 10:28:03 66 0

原创 使用mosesdecoder对机器翻译语料进行处理

之前在进行机器翻译时,一般除了与句子长度做了长度限制外,几乎没有做任何额外的操作,直接暴力的使用BPE算法对语料进行预处理。接触的都是BPE子词级别的,我们都知道,bpe算法的强大性,30000个子词几乎可以表示词典中所有的单词。但是如果我们要用词级别的翻译,那词典太大了,在机器翻译中词典受限的情...

2019-11-27 16:45:21 262 0

转载 中英文维基百科语料上的word2vec实验

在做的实验中需要使用词向量,由于是特定的方法对比,需要自己训练词向量。 中英文除了自己已有的语料外,需要下载更多的单语语料数据来扩充数据集,于是选择了维基百科语料。 其中英文语料下载地址: https://dumps.wikimedia.org/enwiki/latest/enwiki-la...

2019-11-27 16:15:44 32 0

转载 NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the lat

在服务器上跑代码时指定了GPU,但程序运行完提示我指定的GPU不存在,然后还报了如题的错误,解决方法: 方法一: cd /usr/src 查看驱动版本号(我的是410.93) sudo apt-get install dkms sudo dkms install -m nvidia -v 410...

2019-11-21 15:24:41 30 0

原创 机器翻译-subword-nmt预处理语料

在机器翻译中,目前都采用的方法是bpe切分子词的方法来处理翻译中的未登录词。 如何使用? https://github.com/rsennrich/subword-nmt这里面已经写了详细的方法,本文主要记录我处理中英语料时的步骤。 1.共享词典 直接clone了这个项目,但是没有安装的情...

2019-11-13 10:48:07 624 2

转载 机器翻译-词对齐

在上一步预处理完成之后,平行句对中的中文部分都被切分成了相应的短语,而英文的大小写、格式、相应的空格也都加上了,在这之后就可以完成词语对齐的过程了。词语对齐的目标是得到中英文词或短语的对齐信息,便于翻译系统做解码时寻找相应的phrase。 词语对齐这一步一般都采用开源工具完成,比如现在用的...

2019-10-27 19:33:06 161 0

转载 IOError: [Errno 2] No such file or directory的解决方法

https://blog.csdn.net/johinieli/article/details/70855058

2019-09-05 01:13:22 4959 0

原创 java 输出保留小数点后2位

在函数中返回值以double的类型返回, 最后打印的时候利用: System.out.printf("%.2f ",rs);

2019-09-03 17:57:41 1673 0

转载 python--字典初始化

如果说deque是加强版的list的话,那加强版的字典又是什么的呢?没错,就是今天学习的defaultdict,它与deque一样,都是在collections库中的模块。 先来看这样一个问题: s = [('Tom', 5), ('Jone', 2)...

2019-09-02 00:29:39 41 0

原创 leetcode 945. Minimum Increment to Make Array Unique

题目描述: Given an array of integers A, amoveconsists of choosing anyA[i], and incrementing it by1. Return the least number of moves to make every valu...

2019-09-01 00:41:14 55 0

原创 对给定的数组按正负数分类

题目描述: 给定一个包含正负数和0的数组,将负数分到数组的左边,正数分到右边,0在中间。 实现: 1.首先想到的是空间换时间的方法; 2.若不允许开辟新的数组,则用双指针从数组两端寻找并交换。 思路同https://blog.csdn.net/orangefly0214/article/...

2019-08-27 10:52:59 98 0

转载 python 多线程处理文件

https://blog.csdn.net/shanliangliuxing/article/details/9172595

2019-08-26 10:04:29 559 0

原创 leetcode 42. Trapping Rain Water

题目描述: Givennnon-negative integers representing an elevation map where the width of each bar is 1, compute how much water it is able to trap after ra...

2019-08-25 15:58:25 42 0

转载 Python 共现矩阵

https://blog.csdn.net/Dity_Lee/article/details/69663610

2019-08-22 19:11:34 316 0

原创 mac上使用sz,rz命令上传和下载文件

window下我们在服务器上使用sz,rz命令就可以直接实现本地文件得上传和服务器文件得下载,但是mac上不能直接使用,如果在mac下使用这个命令,就需要使用item2. 在使用item2之前我们必须安装了Homebrew,安装brew时直接用一个命令就可以,但是我在安装完成后仍然不能使用bre...

2019-08-22 16:54:03 608 0

原创 leetcode 48. Rotate Image

题目描述: You are given annxn2D matrix representing an image. Rotate the image by 90 degrees (clockwise). Note: You have to rotate the imagein-place,...

2019-08-19 18:03:41 24 0

原创 leetcode 153. Find Minimum in Rotated Sorted Array

题目描述: Suppose an array sorted in ascending order is rotated at some pivot unknown to you beforehand. (i.e., [0,1,2,4,5,6,7]might become [4,5,6,7,0,...

2019-08-19 11:45:12 26 0

原创 leetcode 173. Binary Search Tree Iterator

题目描述: Implement an iterator over a binary search tree (BST). Your iterator will be initialized with the root node of a BST. Callingnext()will retur...

2019-08-18 22:05:32 27 0

原创 leetcode 98. Validate Binary Search Tree

题目描述: Given a binary tree, determine if it is a valid binary search tree (BST). Assume a BST is defined as follows: The left subtree of a node con...

2019-08-18 20:59:42 23 0

原创 leetcode 104. Maximum Depth of Binary Tree

题目描述: Given a binary tree, find its maximum depth. The maximum depth is the number of nodes along the longest path from the root node down to the f...

2019-08-16 22:01:37 35 0

原创 网易互娱笔试题-幸运N串

题目描述: 连续N串被认为是幸运串,给一个全部由大写字母组成的字符串,允许改变最多两个大写字母(也允许不改变或改变1个大写字母), 是的字符串中包含的最长的连续N串的长度最大。 输入:T 表示有T组用例 每一行用例包含一行大写字符串S(0<|S|<50000,|S|为字符串长度 输出...

2019-08-12 11:58:25 556 0

原创 网易互娱笔试题-t时刻泳池的水量

题目描述: 游泳池,一个进水管和一个排水管,开始开关都是打开状态,分别每度过t1, t2 时间改变开关的状态,开关打开时分别每分钟排入,排出 m1,m2 的水量。 当进水管和排水管同时打开时,游泳池水量变化为每分钟m1-m2,游泳池的水量不能为负数,最大容量为m,水量不能超过m。计算 t 时刻泳...

2019-08-12 10:41:30 225 0

原创 网易互娱笔试题-二进制下的1的个数分类

题目描述: 给定N个非负整数,将这N个数字按二进制下的1的个数分类,二进制下1的个数相同属于同一类,求最后共有几类数字。 输入: 1 有几组数 5 每一组数有几个数 8 3 5 7 2 每组数下的数 输出:3 实现(python): 定义一个函数可以返回一个数二进制下1的个数...

2019-08-12 09:44:06 156 0

转载 python 笔试题的输入输出

n = int(input()) a = [] b = [] c = [] for i in range(n): A, B, C = map(int, input().split()) a.append(A) b.append(B) c.append(C) 1....

2019-08-10 23:42:04 1132 0

原创 leetcode 125. Valid Palindrome

题目描述: Given a string, determine if it is a palindrome, considering only alphanumeric characters and ignoring cases. Note:For the purpose of this pr...

2019-08-08 17:43:40 23 0

原创 面试题:排序数组中绝对值出现的次数

题目描述: 给定一个有序数组, 求它的元素的绝对值个数. 如数组[-3, -1, 0, 0, 2, 3, 5], 返回5. 思路: 这个题,利用Hashset进行顺序遍历,最后返回set的size()就可以,但是时间复杂度是o(n),要优化算法,我们就需要这样一个思路,看到有序数组,我们首先...

2019-08-08 10:32:45 119 0

提示
确定要删除当前文章?
取消 删除