arthur503-CSDN博客

原创编码器和解码器的概念理解

编码器和解码器最开始看概念的时候有点懵，因为说编码器先把原始信号给编码，然后解码器再给解出来得到原始信号。哈？这是干啥，原始信号本来就有，用这个搞啥，做无用功吗？1. 首先，说一下编码器和解码器干什么用的。我们举个例子。一个是，类似PCA这样的，做矩阵分解，然后恢复。矩阵分解里，把原始大矩阵变成了几个小矩阵相乘，信息没有丢失，但需要存储的数据变少了很多。虽然解码的时候需要额外的计算，但相比起来，小矩阵更符合我们的需求。实际使用的例子，如，图片的传输。以往，是一行一行的像素传输的，所以，网速慢的时

2020-11-02 16:44:20 18814 8

原创什么是张量（tensor）？

1. 为什么有多个维度？几维/阶张量，是说它的基坐标有几个的张量。如：0维张量（tensor of rank 0），就是标量，是说它的基向量是0组，也就是说，没有基向量，这样，就是没有方向的数字，就是标量。1维张量（tensor of rank 1），就是向量。它的基向量是1组，能够表示方向（基坐标的方向）和长度（数字），这个就是向量。2维张量（tensor of rank 2），就是矩阵。他的基向量是2组。为什么是两个呢？是为了描述更多的物理场景。比如说，我们要描述一个平面上受力这样...

2020-10-27 16:33:53 2438

原创 softmax函数为什么叫softmax？

之前一直很奇怪这个名字，本身是做一个类似归一化的动作，把整体一个vector“压缩”成一个符合概率分布的样子，为什么叫softmax呢？今天查了下，看了下部分答案，大概写一下理解。softmax，是和hard-max来对应的。他完成了两个功能，一个是max，一个是soft。max部分：softmax函数处理之后，整体最大的值还是最大值，这个排序顺序没有变化，相当于大小顺序的信息没有丢失；soft部分：soft意味着，是一种可以反向恢复的一种转换。与之对应的，是hard转换。比如说，我们定

2020-10-26 18:58:03 1876

原创 #论文《Towards Binary-Valued Gates for Robust LSTM Training》

前两周就看到这篇论文的微信号文章介绍了，今天有空拿出来看一下，梳理一下思想。这个论文主要解决的是在LSTM中，发现记忆门和遗忘门的值的分布不够显著，和LSTM设计思想中想让门表示记忆或者遗忘的意思不太一致，所以论文作者提出了用一种方法（Gumbel- Softmax estimator）来对门中的阈值进行改进，从而让阈值更加显著的趋向0或者1，近似二值化。这样做有几个好处：和设计遗忘门...

2018-08-23 18:23:41 589

原创 #论文《Deep Residual Learning for Image Recognition》

2015年的paper，微软何凯明等。解决的问题：梯度消失/爆炸问题；之前的解决方案：This problem, however, has been largely addressed by normalized initial- ization [23, 9, 37, 13] and intermediate normalization layers [16], w...

2018-07-30 17:58:18 279

原创 #论文《ImageNet Classification with Deep Convolutional Neural Networks》

这个Alex是第一作者，NN名字叫AlexNet，Hinton是第三作者。是第一个提出CNN的，还有dropout等方法。 1 Intro CNN与之前的标准前馈神经网络对比：连接和参数更少，因此更容易训练；而且它的理论最佳只是比之前的稍差。 GPU让训练CNN成为可能。而且，ImageNet也足够大，这样不怕过拟合。本文贡献：训练了最佳的CNN；有tri...

2018-07-18 11:28:12 412

原创 #论文《Wide & Deep Learning for Recommender System》翻译

只是为了深化个人理解，翻译了一下梗概。不追求信达雅，只翻译大意。概要：使用非线性特征的广义线性模型（GLM）广泛应用在大规模，输入变量稀疏的回归和分类问题中。其中，通过关于交叉特征的wide模型，对特征间关系的memorization达到了有效和可解释的结果，但同时，也需要很多精力投入在特征工程上。与之对应的，deep模型不需要很多特征工程，通过从系数特征中学习到的低纬稠密特征，可以更好的对没见过...

2018-07-01 22:07:23 1395

原创 python的可变长参数

测试了下python的可变长参数。注意如下：1. *对应的是元组，**对应的是dict。所以，在设定参数的时候，可以不用*args1和**args2，而是使用args1, args2来接收。这样的好处是，可以传递多个函数的参数。如：下面定义的fuction p，就传了两对参数。2. 使用对应元组和dict的时候，与接收相同，仍为：*args1, **args2.3. 传递元组参

2016-04-21 23:49:42 1019

原创 hadoop streaming部分问题总结

来源：https://hadoop.apache.org/docs/r1.2.1/streaming.html#Generic+Command+Options文档还是要好好看，中间遇到的好多问题文档中都有。之前看的时候没有感觉，等遇到了问题再来看，就知道是啥了。=========================================================

2016-04-20 11:46:25 786

原创 Hadoop streaming： Exception in thread "main" java.io.IOException: No space left on device

在使用Hadoop streaming时，遇到报错如标题：packageJobJar: [mapper_sim.py, reducer_sim.py, XXX files, /tmp/hadoop-unjar2957146529644350496/] [] /tmp/ streamjob2631394570007422828.jar tmpDir=nullException in thr

2016-04-05 22:42:42 6330

原创 mysql中<>与null值不能比较

在mysql中，选择某field为不等于某值的时候，使用查原因为：null值不能与其他值进行比较，只能使用is null或is not null来进行判断。所以，限制条件需要写:(field is null or field这样才行。参考链接：http://jingyan.baidu.com/article/9113f81b2adc882b3214c7cb.ht

2016-03-27 13:24:56 5155

原创 Hadoop put file 错误：fs.FSInputChecker: Found checksum error

Hadoop往hdfs上put file的时候，今天报错如下：16/03/12 08:15:17 INFO fs.FSInputChecker: Found checksum error: b[0,

2016-03-12 09:35:32 3419

原创 Hadoop Streaming二次排序

由于Hadoop机器内存不足，所以需要把数据mapred进来跑。这样，就需要，同一个key下的输入数据是有序的，即：对于keyA的数据，要求data1先来，之后data2再来……。所以需要对data进行二次排序。-D stream.num.map.output.key.fields=2这个，可以设置在map之后，进行partition时，使用前两个tab的数据进行排序（包括

2015-12-23 16:28:36 1797

原创正则提取编码解码问题

p = re.compile(u'《(.*?)》') # 使用unicode编码vid_drama_list = p.findall(info_util.get_id_field(vid,"name_cn").decode("utf8"))# utf8解码为unicodevid_drama_list = [x.encode("utf8") for x in vid_drama_li

2015-11-04 11:50:21 723

原创 awk打印第一个字母

题目：统计字典中，以不同字母开头的单词的个数。想要用awk把第一个字母打印出来，sort一下，uniq一下即可。awk中，打印第一个字母使用substr函数，后面两个是start和end。awk '{print substr($1,1,1)}'

2015-10-28 21:32:30 4040

原创 linux中sort不对的问题

cat d.check_sort.v2 15/16赛季测试15/16赛季罗马15/16 青岛男篮15/16 高尔夫15/16 美巡赛15/16 英超cat d.check_sort.v2 |sort15/16 美巡赛15/16 英超15/16赛季测试15/16赛季罗马15/16 青岛男篮15/16 高尔夫磊哥认为是因为

2015-10-28 20:41:29 2296 1

原创 Hadoop的mapper输出中key和value之间的分隔符

Hadoop的mapper输出中key和value之间的分隔符必须是tab，而不能是空格，否则，会把整条记录都当做key来进行sort，导致sort后出错。

2015-10-28 20:38:37 1743

原创 python logging 毫秒级别的时间打印

需要查看代码性能，所以需要毫秒级别的打印。但是，在logging包中，查了源码之后确认使用的是time包的datefmt。而查看Python的doc文档，在time包中并没有提供毫秒的datefmt，所以，只能重写logging中取时间的函数。如下：class Formatter(logging.Formatter): def formatTime(self, record,

2015-10-23 11:36:11 9690

转载异常空格，ASCII (194,160)问题

今天遇到了个异常空格的问题，与：http://www.cnblogs.com/wangyuyu/p/3711887.html 一致。写了两行hive语句，看起来完全一样，但是就是一个可以执行，一个不可以。diff出两者不同，但是死活看不出来。后来发现，由于一个是从qq中copy到onenote中再copy出来的，可能中间发生了转化。具体见下。----------------------

2015-10-15 21:06:44 2435

原创蹬N级阶梯有几种走法

今天蹲大的时候，想着这道题，逆向想通了，记下来。题目：有N级阶梯，往上走的时候，有两种走法：走1级或走2级。问，蹬上N级阶梯，总共有多少总解法。正向想很容易陷进去前面走的是否有重复、交叉一类的思维陷阱中。逆向就好想了：我们先假设：N级阶梯总共有k(n)中解法。人在走最后一步的时候，只有两种解法：走一步或走两步。所以，k(n)就和k(n-1)和k(n-2)有关。即：k(n)

2015-09-19 15:52:49 1465

原创 Hadoop中-put和-copyFromLocal的区别

如下中的stackoverflow的链接。简单的说，-put更宽松，可以把本地或者HDFS上的文件拷贝到HDFS中；而-copyFromLocal则更严格限制只能拷贝本地文件到HDFS中。？？？PS：“ put would prefer the HDFS scheme instead of the local file system”，也就是说，如果本地和HDFS上都存在相同路

2015-06-03 16:47:17 18612 2

原创 Hadoop Stream Python mapper或reducer添加参数

在-mapper后面，应该跟的是一个命令而不是一个文件名。之前写的格式是：-mapper ./mapper_single.py但其实执行的是./mapper_single.py命令（mapper_single.py需要有可执行权限）。因此，需要对mapper或reducer传参数的时候，可以将这个命令用引号（单引号或双引号）扩住：-reducer "./reducer_si

2015-06-03 11:27:23 1666

原创 python字符编码导致dict中key不同

都是utf-8的编码。从文件中load进来，形成了一个dict。但是从mysql中获取数据，形成str类型的key，使用该key从dict中获取数据时，则获取出错，没有找到数据。查出原因，需要将key进行encode：key_str.encode('utf-8')才行。

2015-05-18 15:13:57 2088

原创 python中range和xrange的异同

其中，range直接返回的是个list，而xrange返回的是一个生成器。根据文档所说，xrange更快一点，而且更省内存。文档如下：>>> help(range)Help on built-in function range in module __builtin__:range(...) range([start,] stop[, step]) -> list

2015-05-11 10:49:07 493

翻译 Hiring data scientists

从微博上看到转发的文章，如何hire一名数据科学家（http://treycausey.com/hiring_data_scientists.html），主要的讨论点在博主认为不要写白板代码。看了下，有些赞同，有些并不很赞同。简单列一下，做个备份。博主的面试过程分四部分：电面，根据候选人资历问一下简单技术问题；家庭作业；面试；不/发offer；博主有个观点是

2015-05-06 10:35:18 607

转载内存学习――为什么需要虚拟内存

转载来自：http://blogread.cn/it/article/4494?f=wb关于虚拟内存，物理内存，我有蛮多概念都是很模糊的，今天下午看了一下虚拟内存，也算是有了一点小收获，本文就针对为什么需要有虚拟内存的理解写下来。同时，我也希望自己能够陆续学习linux内存管理的知识，并且写出一些文章，来记录自己的一些理解。如果您觉得有任何问题

2015-05-06 09:17:10 2968

原创 python heapq

注意：heapq是最小堆，也就是说，堆顶元素pq[0]中储存的是最小值，得到的结果是最大的K个值.-----------------------------------------Help on module heapq:NAME heapq - Heap queue algorithm (a.k.a. priority queue).

2015-04-16 15:32:56 628

原创 itemcf的hadoop实现优化(Python)

原始数据如下：u1 a,d,b,cu2 a,a,cu3 b,du4 a,d,cu5 a,b,c计算公式使用：sim = U(i)∩U(j) / (U(i)∪U(j))其中： (U(i)∪U(j)) = U(i) + U(j) - U(i)∩U(j) 原始的Hadoop实现需要5轮MR，优化后只需要两轮就可以完成。之前的轮数过多，主要在于计算(U(i)∪U(j

2015-02-04 14:42:03 1714 1

转载 svn错误：Two top-level reports with no target

原文地址：http://easwy.com/blog/archives/subversion-two-top-level-error/svn: Two top-level reports with no target在网上搜索了一下，似乎出现这个错误是由于本地的拷贝和版本库上状态不一致造成的，不过并找没有一个很好的解决方法。没有办法，只好再次checkout一下版本库，

2015-01-28 18:14:17 3866

原创 Hadoop报错信息：Job not successful. Error: # of failed Map Tasks exceeded allowed limit. FailedCount: 4.

Hadoop报错信息如下：120 15/01/27 15:48:23 ERROR streaming.StreamJob: Job not successful. Error: # of failed Map Tasks exceeded allowed limit. FailedCount: 4. LastFailedTask: task_20150115 0420_80244_m

2015-01-27 18:05:16 3044

原创 exit命令的返回值

注意：shell中，单独的exit命令，返回的return code是上一条命令的returncode，而不是一定为0！如下：[09:32 data]$ cat t.sh #!/bin/bashrm ddasksjdklfasjdkjfaklsdjflkajdslkfjadslkjfdlksajexit [09:32 data]$ sh -x t.sh + rm

2015-01-27 09:34:52 2929

原创 json用法

主要为四个方法：load: load from fileloads: 'loads' from string:dump: dump to filedumps: dumps to string:#/usr/bin/pythonimport json#'loads' from string:s1 = '{"2name":"testdict", "3a":{"name

2015-01-19 15:03:22 853

转载 ubuntu 12.04 联想thinkpad e430 安装wifi驱动

From: http://blog.csdn.net/jklinqing007/article/details/25008005 联想thinkpad e430 使用的wifi是bcm的，可以通过以下两步来安装驱动:1.sudo atp-get update2.sudo atp-get install bcmwl-kernel-source

2015-01-15 23:11:54 977

原创 crontab用法疑云

crontab的教程里面，一般都说 */N 表示每隔N分钟/小时执行一次。偶尔的教程里会讲到：这个N应该被60整除才行。我在网上基本上没有搜到，如果N不被60整除的时候，会是怎样？问题起因最开始在于：个人有个crontab任务，希望设置成40分钟执行一次。但是设置了*/40之后发现，任务总是会在整点和40分的时候执行。查看了下任务设置，并没有设置在整点执行。然而，整点执行之后，

2015-01-15 13:53:51 1281 1

原创 python中strip()的陷阱

使用python的时候，发现了一个strip()命令的坑。之前对strip(X)的理解是：去除开头和结尾包含的"X"字符串，如果不包含则不去除。这里面的一个坑是：python对字符串X的处理是一个set，而不是一个固定顺序的字符串。也就是说，是把X拆开成由单个字母组成的set来看待的，如果被strip()的字符串在左右边包含任意一个该set中的字符，都会被strip()掉。示例如下：>

2015-01-15 10:18:32 9048

原创如何设计接口

一、要求命名：命名规则和风格统一、规范；命名清晰明确，不冗余，不模糊；有意义：清晰和有意义的命名比简略而模糊的命名更应受到青睐；功能职责明确：功能尽量单一；充分理由：不要随便有新功能就增加新接口；无意义的接口只会增加维护的难度；将功能层和策略层分开：功能是基础数据，不易变；策略是表层数据，易变——策略可以使用参数修改；

2014-10-15 23:33:32 934

原创 scp无密码传输

.ssh文件夹需要加上755的权限，否则会出错。authorized_kye

2014-09-04 17:46:55 506

原创 Python中datetime类错误

a=datetime.datetime(2014,08,02) ^SyntaxError: invalid token

2014-08-12 22:19:01 2340

原创 Ubuntu下默认使用dash而非bash

今天在Ubuntu下调试代码，明明是正确的，却仍然报错，查了错误信息才知道：Ubuntu中默认不是bash，二是

2014-07-30 23:58:46 2767

原创 linux下"="号与"=="号

《鸟哥的linux私房菜》基础学习篇P382中说，在bash中"="与"=="是相同的，都代表判断是否相等，只不过由于其他语言一般写法使用"=="，因此建议使用后者。但是实验时，二者还是有所不同。环境为ubuntu，3.5.0-43-generic #66~precise1-Ubuntu SMP Thu Oct 24 14:55:08 UTC 2013 i686 i686 i386 GNU/Lin

2014-07-30 23:17:06 3360

yibo微博客户端完全代码

空空如也