hive sql join 时字段类型不一致问题

在用hive sql 查询数据时会遇到 两个表通过字段join,假如两个字段类型不一样,有可能出现莫名其妙的结果。 解决方法: 将2个字段类型转成一样。比如 两个表通过id关联, 一个是 string 一个是 int,可以将 string 转成int  eg: (cast id as int) ...

2017-06-13 16:40:07

阅读数 2080

评论数 0

如何根据历史数据监控当前数据是否异常

拿这一天的数据与历史数据做对比,对比方法为:根据历史数据求出该字段 预期最大值和最小值,如果该字段数据这天低于最小值则预警 历史数据取值范围:天表(近2周),周表(近一个月),月表(近4个月) 根据一组数据(a1,a2,a3…….an)求预期最大值和最小值公式(单值均值控制图) 1、 求出这组...

2016-09-21 13:05:20

阅读数 2351

评论数 1

idea快速构建spark 工程

idea 版本为:15.0.1, scala 为2.10.5 1、本地安装scala 下载 最新版本 然后安装  由于版本spark为1.3版本原因 scala请使用2.10.5版本  2、idea 安装scala插件    Plugins-->Browse reposito...

2016-08-08 17:22:48

阅读数 230

评论数 0

hbase 协处理器

hbase提供大数据存储方案,但是对数据查询,统计方面支持不多,如果把数据全部加载到客户端进行求和、均值,会对客户端造成很大压力,幸而hbase提供了协处理器, 下面是hbase自带的协处理器AggregationClient ,对表的行数进行汇总。 例子如下:       public in...

2016-07-01 19:17:29

阅读数 379

评论数 0

hbase 建表时分region

创建hbase表时默认是不进行region的,当数据量增长到一定程度后,会添加一个region来存储数据 可以通过在创建表时手动指定 分region操作 create 'lf:lf_t_view_hbase_room_stat',{NAME => 'base_info',TTL=>'8...

2016-06-30 19:01:25

阅读数 655

评论数 0

kettle多个文件间共享数据库连接

我们在新建一个kettle 转换文件时,在里面新建一个数据库连接,然而在建立另外一个kettle 转换文件时,并没有找到之前建立的数据库连接,如果文件比较多的话,就会很麻烦, 解决方法:   点击主对象树 - 转换,接着展开下拉菜单,找到DB连接中,右击下面的数据库连接,选中共享,这样...

2016-03-04 18:57:52

阅读数 7324

评论数 0

TF-IDF及其算法

文章来源:http://www.cnblogs.com/biyeymyhjob/archive/2012/07/17/2595249.html 概念      TF-IDF(term frequency–inverse document frequency)是一种用...

2016-03-04 18:50:14

阅读数 253

评论数 0

linux 下实用的命令

根据文件内容查找 文件    find . -type f -name "*.*" | xargs grep "scrumworkspro.jnlp"    当前目录下查找 包含了 scrumworkspro.jnlp 的所有文件 将一列加起来...

2016-02-19 15:58:45

阅读数 197

评论数 0

如何查看一个大表的总条数

对于一个大表,如果直接用select count(1) from table  查条数可能特别慢,更有可能导致锁表、崩溃。可以通过主键(自动增长)来获取 方法: 查询最开始的主键号,比如 1,再查最后的主键号比如 1000000,两者相减得到总记录数

2016-02-19 12:47:11

阅读数 1476

评论数 0

hbase 创建表、查询数据

pom.xml 配置 org.apache.hbase hbase-client 0.96.2-hadoop2 org.slf4j slf4j-api org.slf4j slf4j-log4j12 ...

2016-02-04 10:16:14

阅读数 4683

评论数 1

druid数据源例子

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 离线写博客 导入导出Markdown文件 丰富...

2016-01-27 14:25:29

阅读数 585

评论数 0

rsyncd 同步

rsyncd 适合同步数据量不是很大,对实时要求不高的文件 比如你想同步机器A 的文件到 机器B,文件在机器A的 /home/q/www/activity/LOG目录下 机器A 配置如下 配置 rsyncd.conf、rsyncd.secrets ,放到/etc下,并将 rsyncd.s...

2016-01-26 17:16:30

阅读数 281

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭