hive join时需要注意的几个细节

hive 两个表 join时key的不同会出现不同的情况: 需要join的表的key唯一 这是最简单的情况,以left join为例,join后的表的条数应该等于左表的数量 需要join的表的key不唯一 这是比较复杂的一种情况,若有以下两个表 a.id 1 2 1 ...

2018-10-31 17:32:04

阅读数 44

评论数 0

LSTM/GRU tensorflow及keras实现

LSTM/GRU在文本分类、情感分析及语言建模等方面有很大的用处,本文主要对这两种方法的tensorflow和keras实现进行分析 1.LSTM/GRU的tensorflow实现 a.文本处理 一般来说, 需要先把句子划分为词语(对于英文来说,直接将句子划分为单词的列表即可;对于中文,需要对句...

2018-09-26 17:14:46

阅读数 1566

评论数 0

grep、sed、awk

1、grep grep -n root /etc/passwd 将文件中含有root的行找出来,并显示行号 grep -v root /etc/passwd 将文件中没有root的行找出来,并显示行号 grep ‘energywise’ * 找出当前目录下含有energyw...

2017-12-01 13:24:25

阅读数 115

评论数 0

Hive性能优化

作者:哥不是小萝莉 出处:http://www.cnblogs.com/smartloli/

2017-09-22 11:52:22

阅读数 158

评论数 0

Maven中POM文件的理解

POM文件通过XML语法来管理Maven项目,其中包含项目间的依赖关系。1、Maven内置属性及使用(Maven自定义,可直接使用) ${basedir} 表示pom文件所在的目录 ${version} 表示项目版本 ${project.basedir} 同basedir ${user.home}...

2017-09-22 10:58:03

阅读数 452

评论数 0

Hive Mapper和Reducer的设置

1、Mapper的影响因子 input_file_num:文件数量 input_file_size:文件大小 mapred.max.split.size(default 265M) mapred.min.split.size(default 1B) 切割算法(TextInputForma...

2017-09-07 11:58:30

阅读数 511

评论数 0

Linux I/O重定向

0表示标准输入 1表示标准输出 2表示标准错误输出 >默认为标准输出重定向,与 1> 相同 >&>file 意思是把 标准输出 和 标准错误输出 都重定向到文件file中 /dev/null 废弃掉不输出 “&-“表示关闭文件标识符 一些基本的命令 ls /...

2017-07-25 11:16:59

阅读数 150

评论数 0

Hive常用的命令

显示已有数据库列表 show databases; 使用数据库db use db; 显示数据表列表 show tables; 描述数据表结构 desc/describe tables; 创建数据表 CREATE TABLE u_data ( userid INT, movieid I...

2017-07-14 08:58:11

阅读数 247

评论数 0

Shell的使用

常用命令 #!/bin/bash     开始代码,表示用bash来执行我们的文件 chmod +x filename     添加可执行属性,新创建的脚本都需要添加可执行属性 varname=2     赋值(注意不要有空格) $var或${var}      使用变量 printf ...

2017-07-13 14:45:53

阅读数 219

评论数 0

Tensorboard的使用

转载自:http://blog.csdn.net/sinat_33761963/article/details/62433234 标签(空格分隔): 王小草Tensorflow笔记 笔记整理者:王小草 笔记整理时间:2017年3月7日 代码原文请见github: 当使...

2017-06-01 09:20:51

阅读数 5369

评论数 0

利用TensorFlow实现CNN

import tensorflow as tf from tensorflow.contrib.learn.python.learn.datasets.mnist import read_data_sets mnist = read_data_sets("G://MNIST_data/...

2017-06-01 09:17:01

阅读数 362

评论数 0

tensorflow使用

目前tensorflow是深度学习中非常流行的一个工具包,它是由google研发的,其基本原理是计算图的模型。安装目前版本(2017年5月)的tensorflow支持直接进行pip进行安装,但唯一需要注意的一点是目前只支持python3版本pip3 install tensorflow入门1)pl...

2017-05-31 20:19:18

阅读数 268

评论数 0

循环神经网络

1、RNN RNN的结构是十分灵活的,如下图所示: 其中从左到右的结构分别可以用来作为神经网络、图形标注、情感分析、机器翻译、视频分类。 a、Vanilla RNN b、LSTM 原始的RNN有很大的缺点,在训练序列较长的模型时,容易造成梯度消失和梯度爆炸的情况发生(不断进行矩阵...

2017-05-08 11:02:52

阅读数 650

评论数 0

Word Vector

Word Vector 方法通常情况下,我们需要解决的问题都是和数字来打交道。对于nlp而言,语言中包含很多非数字的词语,要想实现对一句话的理解,首要做的是将词语转化为向量。将词语转化为向量的方法主要有3大种。下面分别进行介绍:1、One hot Encoding即将词语转化为一个长度为单词库中单...

2017-05-07 20:40:46

阅读数 357

评论数 0

Localization and Object Detection

Localization思路1:看作回归问题首先考虑单个物体的检测,对单个物体的分类来说,已经很清楚了,在网络的最后一层加上softmax层或者multi-svm即可。对于检测问题,我们需要获得矩形边框的位置,一个简单的思路是将这个问题看作回归问题(x, y, w, h),所以很简单将分类问题的最...

2017-05-06 10:49:29

阅读数 995

评论数 1

CNN训练

CNN训练技巧实现完成神经网络,通常需要验证网络的参数是否正确,通常有以下步骤: 1、检验前向传播的实现是否正确 采用很小的数据去验证 关闭正则项,若是softmax损失则loss值应当为log(C),其中C为类别数,若是muti-svm损失,则loss值应为C-1(若bias为1时);打开正则...

2017-04-28 11:20:27

阅读数 472

评论数 0

CNN可视化

CNN可视化1、查看感兴趣的任意层的方法 a、将图片放入网络 b、选择感兴趣的层,将该层中的感兴趣的神经元的上游梯度值设为1,其他神经元的值为0 c、反向传播至输入数据,求出dx2、阴影图 a、将图片传入训练过的网络 b、前向传播至softmax层之前的那一层scores输出,确定该图片...

2017-04-27 22:12:31

阅读数 654

评论数 0

神经网络的编程实现

CNN的编程实现可以分为以下几大模块: layers层的实现,包括每个层的前向传播和反向传播函数 CNN网络类的实现,通过堆叠layers层中实现的各种layer,构建网络的结构 优化方法的实现包括SGD、SGD+Momentum、Adam等方法 Solver类的实现,对构建的CNN网络采用实现的...

2017-04-27 10:29:36

阅读数 820

评论数 0

CNN:Case Study

imagenet比赛中出现了很多优秀的网络结构,主要包括:1、LeNetLeNet是第一个被成功应用的网络,目前主要用在读取邮政编码和数字,其主要结构如下: Lenet的结构现在看来还是非常简单的,主要包含卷积–>池化–>卷积–>池化–>卷积–>FC2、Alex...

2017-04-26 15:56:59

阅读数 292

评论数 0

CNN基础

1、CNN的引入传统的神经网络一般属于全连接神经网络,也就是说相邻的两层间中每一层的神经元都与另一层的神经元间有链接。这样的网络显然可以完整的保持输入数据的信息。但假设输入数据的维度较高(假设输入时图片,维度是200X200X3),相邻隐含层中隐含单元的个数为10个那么第一层的权重中,参数的个数为...

2017-04-26 09:58:02

阅读数 245

评论数 0

提示
确定要删除当前文章?
取消 删除