- 博客(70)
- 资源 (1)
- 收藏
- 关注
原创 编码器和解码器的概念理解
编码器和解码器最开始看概念的时候有点懵,因为说编码器先把原始信号给编码,然后解码器再给解出来得到原始信号。哈?这是干啥,原始信号本来就有,用这个搞啥,做无用功吗?1. 首先,说一下编码器和解码器干什么用的。我们举个例子。一个是,类似PCA这样的,做矩阵分解,然后恢复。矩阵分解里,把原始大矩阵变成了几个小矩阵相乘,信息没有丢失,但需要存储的数据变少了很多。虽然解码的时候需要额外的计算,但相比起来,小矩阵更符合我们的需求。实际使用的例子,如,图片的传输。以往,是一行一行的像素传输的,所以,网速慢的时
2020-11-02 16:44:20 19774 8
原创 什么是张量(tensor)?
1. 为什么有多个维度?几维/阶张量,是说它的基坐标有几个的张量。如:0维张量(tensor of rank 0),就是标量,是说它的基向量是0组,也就是说,没有基向量,这样,就是没有方向的数字,就是标量。1维张量(tensor of rank 1),就是向量。它的基向量是1组,能够表示方向(基坐标的方向)和长度(数字),这个就是向量。2维张量(tensor of rank 2),就是矩阵。他的基向量是2组。为什么是两个呢?是为了描述更多的物理场景。比如说,我们要描述一个平面上受力这样...
2020-10-27 16:33:53 2501
原创 softmax函数为什么叫softmax?
之前一直很奇怪这个名字,本身是做一个类似归一化的动作,把整体一个vector“压缩”成一个符合概率分布的样子,为什么叫softmax呢?今天查了下,看了下部分答案,大概写一下理解。softmax,是和hard-max来对应的。他完成了两个功能,一个是max,一个是soft。max部分:softmax函数处理之后,整体最大的值还是最大值,这个排序顺序没有变化,相当于大小顺序的信息没有丢失;soft部分:soft意味着,是一种可以反向恢复的一种转换。与之对应的,是hard转换。比如说,我们定
2020-10-26 18:58:03 2021
原创 #论文 《Towards Binary-Valued Gates for Robust LSTM Training》
前两周就看到这篇论文的微信号文章介绍了,今天有空拿出来看一下,梳理一下思想。这个论文主要解决的是在LSTM中,发现记忆门和遗忘门的值的分布不够显著,和LSTM设计思想中想让门表示记忆或者遗忘的意思不太一致,所以论文作者提出了用一种方法(Gumbel- Softmax estimator)来对门中的阈值进行改进,从而让阈值更加显著的趋向0或者1,近似二值化。这样做有几个好处: 和设计遗忘门...
2018-08-23 18:23:41 622
原创 #论文 《Deep Residual Learning for Image Recognition》
2015年的paper,微软何凯明等。解决的问题: 梯度消失/爆炸问题; 之前的解决方案:This problem, however, has been largely addressed by normalized initial- ization [23, 9, 37, 13] and intermediate normalization layers [16], w...
2018-07-30 17:58:18 330
原创 #论文 《ImageNet Classification with Deep Convolutional Neural Networks》
这个Alex是第一作者,NN名字叫AlexNet,Hinton是第三作者。是第一个提出CNN的,还有dropout等方法。 1 Intro CNN与之前的标准前馈神经网络对比:连接和参数更少,因此更容易训练;而且它的理论最佳只是比之前的稍差。 GPU让训练CNN成为可能。而且,ImageNet也足够大,这样不怕过拟合。 本文贡献:训练了最佳的CNN;有tri...
2018-07-18 11:28:12 444
原创 #论文 《Wide & Deep Learning for Recommender System》翻译
只是为了深化个人理解,翻译了一下梗概。不追求信达雅,只翻译大意。概要:使用非线性特征的广义线性模型(GLM)广泛应用在大规模,输入变量稀疏的回归和分类问题中。其中,通过关于交叉特征的wide模型,对特征间关系的memorization达到了有效和可解释的结果,但同时,也需要很多精力投入在特征工程上。与之对应的,deep模型不需要很多特征工程,通过从系数特征中学习到的低纬稠密特征,可以更好的对没见过...
2018-07-01 22:07:23 1415
原创 python的可变长参数
测试了下python的可变长参数。注意如下:1. *对应的是元组,**对应的是dict。所以,在设定参数的时候,可以不用*args1和**args2,而是使用args1, args2来接收。这样的好处是,可以传递多个函数的参数。如:下面定义的fuction p,就传了两对参数。2. 使用对应元组和dict的时候,与接收相同,仍为:*args1, **args2.3. 传递元组参
2016-04-21 23:49:42 1049
原创 hadoop streaming部分问题总结
来源:https://hadoop.apache.org/docs/r1.2.1/streaming.html#Generic+Command+Options文档还是要好好看,中间遇到的好多问题文档中都有。之前看的时候没有感觉,等遇到了问题再来看,就知道是啥了。=========================================================
2016-04-20 11:46:25 818
原创 Hadoop streaming: Exception in thread "main" java.io.IOException: No space left on device
在使用Hadoop streaming时,遇到报错如标题:packageJobJar: [mapper_sim.py, reducer_sim.py, XXX files, /tmp/hadoop-unjar2957146529644350496/] [] /tmp/ streamjob2631394570007422828.jar tmpDir=nullException in thr
2016-04-05 22:42:42 6435
原创 mysql中<>与null值不能比较
在mysql中,选择某field为不等于某值的时候,使用查原因为:null值不能与其他值进行比较,只能使用is null或is not null来进行判断。所以,限制条件需要写:(field is null or field这样才行。参考链接:http://jingyan.baidu.com/article/9113f81b2adc882b3214c7cb.ht
2016-03-27 13:24:56 5327
原创 Hadoop put file 错误:fs.FSInputChecker: Found checksum error
Hadoop往hdfs上put file的时候,今天报错如下:16/03/12 08:15:17 INFO fs.FSInputChecker: Found checksum error: b[0,
2016-03-12 09:35:32 3465
原创 Hadoop Streaming二次排序
由于Hadoop机器内存不足,所以需要把数据mapred进来跑。这样,就需要,同一个key下的输入数据是有序的,即:对于keyA的数据,要求data1先来,之后data2再来……。所以需要对data进行二次排序。-D stream.num.map.output.key.fields=2这个,可以设置在map之后,进行partition时,使用前两个tab的数据进行排序(包括
2015-12-23 16:28:36 1818
原创 正则提取编码解码问题
p = re.compile(u'《(.*?)》') # 使用unicode编码vid_drama_list = p.findall(info_util.get_id_field(vid,"name_cn").decode("utf8"))# utf8解码为unicodevid_drama_list = [x.encode("utf8") for x in vid_drama_li
2015-11-04 11:50:21 752
原创 awk打印第一个字母
题目:统计字典中,以不同字母开头的单词的个数。想要用awk把第一个字母打印出来,sort一下,uniq一下即可。awk中,打印第一个字母使用substr函数,后面两个是start和end。awk '{print substr($1,1,1)}'
2015-10-28 21:32:30 4173
原创 linux中sort不对的问题
cat d.check_sort.v2 15/16赛季 测试15/16赛季 罗马15/16 青岛男篮15/16 高尔夫15/16 美巡赛15/16 英超cat d.check_sort.v2 |sort15/16 美巡赛15/16 英超15/16赛季 测试15/16赛季 罗马15/16 青岛男篮15/16 高尔夫磊哥认为是因为
2015-10-28 20:41:29 2354 1
原创 Hadoop的mapper输出中key和value之间的分隔符
Hadoop的mapper输出中key和value之间的分隔符必须是tab,而不能是空格,否则,会把整条记录都当做key来进行sort,导致sort后出错。
2015-10-28 20:38:37 1789
原创 python logging 毫秒级别的时间打印
需要查看代码性能,所以需要毫秒级别的打印。但是,在logging包中,查了源码之后确认使用的是time包的datefmt。而查看Python的doc文档,在time包中并没有提供毫秒的datefmt,所以,只能重写logging中取时间的函数。如下:class Formatter(logging.Formatter): def formatTime(self, record,
2015-10-23 11:36:11 9749
转载 异常空格,ASCII (194,160)问题
今天遇到了个异常空格的问题,与:http://www.cnblogs.com/wangyuyu/p/3711887.html 一致。写了两行hive语句,看起来完全一样,但是就是一个可以执行,一个不可以。diff出两者不同,但是死活看不出来。后来发现,由于一个是从qq中copy到onenote中再copy出来的,可能中间发生了转化。具体见下。----------------------
2015-10-15 21:06:44 2483
原创 蹬N级阶梯有几种走法
今天蹲大的时候,想着这道题,逆向想通了,记下来。题目:有N级阶梯,往上走的时候,有两种走法:走1级或走2级。问,蹬上N级阶梯,总共有多少总解法。正向想很容易陷进去前面走的是否有重复、交叉一类的思维陷阱中。逆向就好想了:我们先假设:N级阶梯总共有k(n)中解法。人在走最后一步的时候,只有两种解法:走一步或走两步。所以,k(n)就和k(n-1)和k(n-2)有关。即:k(n)
2015-09-19 15:52:49 1532
原创 Hadoop中-put和-copyFromLocal的区别
如下中的stackoverflow的链接。简单的说,-put更宽松,可以把本地或者HDFS上的文件拷贝到HDFS中;而-copyFromLocal则更严格限制只能拷贝本地文件到HDFS中。???PS:“ put would prefer the HDFS scheme instead of the local file system”,也就是说,如果本地和HDFS上都存在相同路
2015-06-03 16:47:17 18752 2
原创 Hadoop Stream Python mapper或reducer添加参数
在-mapper后面,应该跟的是一个命令而不是一个文件名。之前写的格式是:-mapper ./mapper_single.py但其实执行的是./mapper_single.py命令(mapper_single.py需要有可执行权限)。因此,需要对mapper或reducer传参数的时候,可以将这个命令用引号(单引号或双引号)扩住:-reducer "./reducer_si
2015-06-03 11:27:23 1695
原创 python字符编码导致dict中key不同
都是utf-8的编码。从文件中load进来,形成了一个dict。但是从mysql中获取数据,形成str类型的key,使用该key从dict中获取数据时,则获取出错,没有找到数据。查出原因,需要将key进行encode:key_str.encode('utf-8')才行。
2015-05-18 15:13:57 2111
原创 python中range和xrange的异同
其中,range直接返回的是个list,而xrange返回的是一个生成器。根据文档所说,xrange更快一点,而且更省内存。文档如下:>>> help(range)Help on built-in function range in module __builtin__:range(...) range([start,] stop[, step]) -> list
2015-05-11 10:49:07 514
翻译 Hiring data scientists
从微博上看到转发的文章,如何hire一名数据科学家(http://treycausey.com/hiring_data_scientists.html),主要的讨论点在博主认为不要写白板代码。看了下,有些赞同,有些并不很赞同。简单列一下,做个备份。博主的面试过程分四部分:电面,根据候选人资历问一下简单技术问题;家庭作业;面试;不/发offer;博主有个观点是
2015-05-06 10:35:18 628
转载 内存学习――为什么需要虚拟内存
转载来自:http://blogread.cn/it/article/4494?f=wb关于虚拟内存,物理内存,我有蛮多概念都是很模糊的,今天下午看了一下虚拟内存,也算是有了一点小收获,本文就针对为什么需要有虚拟内存的理解写下来。 同时,我也希望自己能够陆续学习linux内存管理的知识,并且写出一些文章,来记录自己的一些理解。 如果您觉得有任何问题
2015-05-06 09:17:10 2993
原创 python heapq
注意:heapq是最小堆,也就是说,堆顶元素pq[0]中储存的是最小值,得到的结果是最大的K个值.-----------------------------------------Help on module heapq:NAME heapq - Heap queue algorithm (a.k.a. priority queue).
2015-04-16 15:32:56 651
原创 itemcf的hadoop实现优化(Python)
原始数据如下:u1 a,d,b,cu2 a,a,cu3 b,du4 a,d,cu5 a,b,c计算公式使用:sim = U(i)∩U(j) / (U(i)∪U(j))其中: (U(i)∪U(j)) = U(i) + U(j) - U(i)∩U(j) 原始的Hadoop实现需要5轮MR,优化后只需要两轮就可以完成。之前的轮数过多,主要在于计算(U(i)∪U(j
2015-02-04 14:42:03 1743 1
转载 svn错误:Two top-level reports with no target
原文地址:http://easwy.com/blog/archives/subversion-two-top-level-error/svn: Two top-level reports with no target在网上搜索了一下,似乎出现这个错误是由于本地的拷贝和版本库上状态不一致造成的,不过并找没有一个很好的解决方法。没有办法,只好再次checkout一下版本库,
2015-01-28 18:14:17 3952
原创 Hadoop报错信息:Job not successful. Error: # of failed Map Tasks exceeded allowed limit. FailedCount: 4.
Hadoop报错信息如下:120 15/01/27 15:48:23 ERROR streaming.StreamJob: Job not successful. Error: # of failed Map Tasks exceeded allowed limit. FailedCount: 4. LastFailedTask: task_20150115 0420_80244_m
2015-01-27 18:05:16 3114
原创 exit命令的返回值
注意:shell中,单独的exit命令,返回的return code是上一条命令的returncode,而不是一定为0!如下:[09:32 data]$ cat t.sh #!/bin/bashrm ddasksjdklfasjdkjfaklsdjflkajdslkfjadslkjfdlksajexit [09:32 data]$ sh -x t.sh + rm
2015-01-27 09:34:52 2982
原创 json用法
主要为四个方法:load: load from fileloads: 'loads' from string:dump: dump to filedumps: dumps to string:#/usr/bin/pythonimport json#'loads' from string:s1 = '{"2name":"testdict", "3a":{"name
2015-01-19 15:03:22 878
转载 ubuntu 12.04 联想thinkpad e430 安装wifi驱动
From: http://blog.csdn.net/jklinqing007/article/details/25008005 联想thinkpad e430 使用的wifi是bcm的,可以通过以下两步来安装驱动:1.sudo atp-get update2.sudo atp-get install bcmwl-kernel-source
2015-01-15 23:11:54 1010
原创 crontab用法疑云
crontab的教程里面,一般都说 */N 表示每隔N分钟/小时执行一次。偶尔的教程里会讲到:这个N应该被60整除才行。我在网上基本上没有搜到,如果N不被60整除的时候,会是怎样?问题起因最开始在于:个人有个crontab任务,希望设置成40分钟执行一次。但是设置了*/40之后发现,任务总是会在整点和40分的时候执行。查看了下任务设置,并没有设置在整点执行。然而,整点执行之后,
2015-01-15 13:53:51 1362 1
原创 python中strip()的陷阱
使用python的时候,发现了一个strip()命令的坑。之前对strip(X)的理解是:去除开头和结尾包含的"X"字符串,如果不包含则不去除。这里面的一个坑是:python对字符串X的处理是一个set,而不是一个固定顺序的字符串。也就是说,是把X拆开成由单个字母组成的set来看待的,如果被strip()的字符串在左右边包含任意一个该set中的字符,都会被strip()掉。示例如下:>
2015-01-15 10:18:32 9090
原创 如何设计接口
一、要求命名:命名规则和风格统一、规范;命名清晰明确,不冗余,不模糊;有意义:清晰和有意义的命名比简略而模糊的命名更应受到青睐;功能职责明确:功能尽量单一;充分理由:不要随便有新功能就增加新接口;无意义的接口只会增加维护的难度;将功能层和策略层分开:功能是基础数据,不易变;策略是表层数据,易变——策略可以使用参数修改;
2014-10-15 23:33:32 970
原创 Python中datetime类错误
a=datetime.datetime(2014,08,02) ^SyntaxError: invalid token
2014-08-12 22:19:01 2391
原创 Ubuntu下默认使用dash而非bash
今天在Ubuntu下调试代码,明明是正确的,却仍然报错,查了错误信息才知道:Ubuntu中默认不是bash,二是
2014-07-30 23:58:46 2923
原创 linux下"="号与"=="号
《鸟哥的linux私房菜》基础学习篇P382中说,在bash中"="与"=="是相同的,都代表判断是否相等,只不过由于其他语言一般写法使用"==",因此建议使用后者。但是实验时,二者还是有所不同。环境为ubuntu,3.5.0-43-generic #66~precise1-Ubuntu SMP Thu Oct 24 14:55:08 UTC 2013 i686 i686 i386 GNU/Lin
2014-07-30 23:17:06 3474
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人