问道于盲

龙猪骑士:修炼自己与发现世界

#论文 《Towards Binary-Valued Gates for Robust LSTM Training》

前两周就看到这篇论文的微信号文章介绍了,今天有空拿出来看一下,梳理一下思想。 这个论文主要解决的是在LSTM中,发现记忆门和遗忘门的值的分布不够显著,和LSTM设计思想中想让门表示记忆或者遗忘的意思不太一致,所以论文作者提出了用一种方法(Gumbel- Softmax estimator)来对门...

2018-08-23 18:23:41

阅读数 174

评论数 0

#论文 《Deep Residual Learning for Image Recognition》

2015年的paper,微软何凯明等。 解决的问题: 梯度消失/爆炸问题; 之前的解决方案:This problem, however, has been largely addressed by normalized initial- ization [23, 9, 37...

2018-07-30 17:58:18

阅读数 74

评论数 0

#论文 《ImageNet Classification with Deep Convolutional Neural Networks》

这个Alex是第一作者,NN名字叫AlexNet,Hinton是第三作者。是第一个提出CNN的,还有dropout等方法。   1 Intro   CNN与之前的标准前馈神经网络对比:连接和参数更少,因此更容易训练;而且它的理论最佳只是比之前的稍差。   GPU让训练CNN成为可能。而...

2018-07-18 11:28:12

阅读数 101

评论数 0

#论文 《Wide & Deep Learning for Recommender System》翻译

只是为了深化个人理解,翻译了一下梗概。不追求信达雅,只翻译大意。概要:使用非线性特征的广义线性模型(GLM)广泛应用在大规模,输入变量稀疏的回归和分类问题中。其中,通过关于交叉特征的wide模型,对特征间关系的memorization达到了有效和可解释的结果,但同时,也需要很多精力投入在特征工程上...

2018-07-01 22:07:23

阅读数 376

评论数 0

python的可变长参数

测试了下python的可变长参数。 注意如下: 1. *对应的是元组,**对应的是dict。 所以,在设定参数的时候,可以不用*args1和**args2,而是使用args1, args2来接收。这样的好处是,可以传递多个函数的参数。如:下面定义的fuction p,就传了两对参数。 2....

2016-04-21 23:49:42

阅读数 659

评论数 0

hadoop streaming部分问题总结

来源: https://hadoop.apache.org/docs/r1.2.1/streaming.html#Generic+Command+Options 文档还是要好好看,中间遇到的好多问题文档中都有。之前看的时候没有感觉,等遇到了问题再来看,就知道是啥了。 ======...

2016-04-20 11:46:25

阅读数 429

评论数 0

Hadoop streaming: Exception in thread "main" java.io.IOException: No space left on device

在使用Hadoop streaming时,遇到报错如标题: packageJobJar: [mapper_sim.py, reducer_sim.py, XXX files, /tmp/hadoop-unjar2957146529644350496/] [] /tmp/  streamjob26...

2016-04-05 22:42:42

阅读数 3243

评论数 0

mysql中<>与null值不能比较

在mysql中,选择某field为不等于某值的时候,使用 查原因为: null值不能与其他值进行比较,只能使用is null或is not null来进行判断。 所以,限制条件需要写: (field is null or field 这样才行。 参考链接: http://ji...

2016-03-27 13:24:56

阅读数 781

评论数 0

Hadoop put file 错误:fs.FSInputChecker: Found checksum error

Hadoop往hdfs上put file的时候,今天报错如下: 16/03/12 08:15:17 INFO fs.FSInputChecker: Found checksum error: b[0,                                                ...

2016-03-12 09:35:32

阅读数 2129

评论数 0

Hadoop Streaming二次排序

由于Hadoop机器内存不足,所以需要把数据mapred进来跑。 这样,就需要,同一个key下的输入数据是有序的,即:对于keyA的数据,要求data1先来,之后data2再来……。所以需要对data进行二次排序。 -D stream.num.map.output.key.fields=2 ...

2015-12-23 16:28:36

阅读数 1142

评论数 0

正则提取编码解码问题

p = re.compile(u'《(.*?)》') # 使用unicode编码 vid_drama_list = p.findall(info_util.get_id_field(vid,"name_cn").decode("utf8")) # utf...

2015-11-04 11:50:21

阅读数 528

评论数 0

awk打印第一个字母

题目:统计字典中,以不同字母开头的单词的个数。 想要用awk把第一个字母打印出来,sort一下,uniq一下即可。 awk中,打印第一个字母使用substr函数,后面两个是start和end。 awk '{print substr($1,1,1)}'

2015-10-28 21:32:30

阅读数 1366

评论数 0

linux中sort不对的问题

cat d.check_sort.v2  15/16赛季 测试 15/16赛季 罗马 15/16 青岛男篮 15/16 高尔夫 15/16 美巡赛 15/16 英超 cat d.check_sort.v2 |sort 15/16 美巡赛 15/16 英超 15/16赛季...

2015-10-28 20:41:29

阅读数 1133

评论数 1

Hadoop的mapper输出中key和value之间的分隔符

Hadoop的mapper输出中key和value之间的分隔符必须是tab,而不能是空格,否则,会把整条记录都当做key来进行sort,导致sort后出错。

2015-10-28 20:38:37

阅读数 940

评论数 0

python logging 毫秒级别的时间打印

需要查看代码性能,所以需要毫秒级别的打印。但是,在logging包中,查了源码之后确认使用的是time包的datefmt。而查看Python的doc文档,在time包中并没有提供毫秒的datefmt,所以,只能重写logging中取时间的函数。如下: class Formatter(lo...

2015-10-23 11:36:11

阅读数 5752

评论数 0

异常空格,ASCII (194,160)问题

今天遇到了个异常空格的问题,与:http://www.cnblogs.com/wangyuyu/p/3711887.html 一致。 写了两行hive语句,看起来完全一样,但是就是一个可以执行,一个不可以。diff出两者不同,但是死活看不出来。 后来发现,由于一个是从qq中copy到oneno...

2015-10-15 21:06:44

阅读数 1361

评论数 0

蹬N级阶梯有几种走法

今天蹲大的时候,想着这道题,逆向想通了,记下来。 题目: 有N级阶梯,往上走的时候,有两种走法:走1级或走2级。问,蹬上N级阶梯,总共有多少总解法。 正向想很容易陷进去前面走的是否有重复、交叉一类的思维陷阱中。逆向就好想了: 我们先假设:N级阶梯总共有k(n)中解法。 人在走最后一步的时...

2015-09-19 15:52:49

阅读数 680

评论数 0

Hadoop中-put和-copyFromLocal的区别

如下中的stackoverflow的链接。 简单的说,-put更宽松,可以把本地或者HDFS上的文件拷贝到HDFS中;而-copyFromLocal则更严格限制只能拷贝本地文件到HDFS中。 ??? PS:“ put would prefer the HDFS scheme inst...

2015-06-03 16:47:17

阅读数 8501

评论数 0

Hadoop Stream Python mapper或reducer添加参数

在-mapper后面,应该跟的是一个命令而不是一个文件名。 之前写的格式是: -mapper ./mapper_single.py 但其实执行的是./mapper_single.py命令(mapper_single.py需要有可执行权限)。 因此,需要对mapper或reducer传参...

2015-06-03 11:27:23

阅读数 1182

评论数 0

python字符编码导致dict中key不同

都是utf-8的编码。 从文件中load进来,形成了一个dict。 但是从mysql中获取数据,形成str类型的key,使用该key从dict中获取数据时,则获取出错,没有找到数据。 查出原因,需要将key进行encode:key_str.encode('utf-8')才行。

2015-05-18 15:13:57

阅读数 945

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭