自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 如何理解逻辑表和物理表

在工作中有些平台需要对物理表进行逻辑处理,平台的功能基于逻辑表进行进一步拓展,逻辑表和物理表的概念如下:物理表:物理表是具体某个数据源中的一张表。对于mysql就是一个table,对于Hbase可以是一张hbase表,对于ES是一个索引。mysql, Hbase和ES这些物理表必须要有合理的key。特殊的物理表不含有key逻辑表:逻辑表可以理解为数据库中的视图,是一张虚拟表。可以映射到一张物理表,...

2018-04-01 14:02:06 24903

原创 工作思考

1.做事速度  vs  做事精确度工作总是做不完的,我现在就属于做事非常快的,但是可惜精确度不够,或者叫做事方法不对,在给出自己的交付结果前,自己需要先对自己的工作结果进行审评,不要因此浪费上司的时间来帮自己纠正一些非常低级的错误。以前我一直认为做事快是很好的事情,但是从新上司的态度来看,做事的方法和准确度更重要。所以目前我需要更改之前自己一贯的做事方法,把做事目标从 快 向 准确 转变2.任务的...

2018-03-23 15:53:36 1128

原创 hivesql 效率优化

1.group by 数据倾斜问题      hive是根据group by 的key进行数据分发的,某个key相同的数据太多的会被分发到一个reducer上,key的数据分布不均匀会导致大量数据被shuffle到某个或者某些reducer上,出现严重的数据倾斜,使得数据计算变慢   配置任务参数   set hive.groupby.skewindata=true;     原理:该配置会触发h...

2018-03-23 15:39:48 943

原创 python之pandas分组统计

pandas 分组统计求占比

2017-11-16 17:35:49 10890 1

原创 MySQL查询优化技巧之二

Mysql 查询优化技巧

2017-08-31 11:48:17 350

原创 Mysql查询语句技巧之一

在工作中能在遇到具体查询问题的时候多思考,必能提高自己的能力

2017-08-31 11:08:51 359

原创 hivesql优化技巧之一 mapjoin

mapjoin可以优化两种场景下的数据join: 1.有一张表很小 2.不等值的链接操作

2017-08-30 16:17:33 869

原创 使用awk对广告数据中bid、imp中的ip做运营商分类统计

使用awk做数据分析的日常工作感觉很不错!

2017-07-14 16:52:37 1846

原创 思考,提升

行成于思毁于随

2017-07-11 12:07:18 208

原创 《soft skills》阅读有感工作

《soft skill》阅读有感

2017-07-05 18:19:30 502

原创 通过读取文件向mysql表单中插入某几列数据

读取本地文件插入到mysql,指定字符集和分隔符以及插入的列名

2017-07-05 14:20:45 833

原创 服务器定时任务的执行失败重新尝试5次

这个问题主要是记录了在日常的数据分析处理任务中,任务因为外界因素异常中断的问题,需要设置重新尝试执行定时任务。

2017-07-05 11:28:28 6072

原创 抬头看路

工作一年了,从最开始走出校园进入社会时的激动不已,想要大干一场的热血到现在更觉得要踏踏实实提高自己的各方面能力的心态和想法,感觉自己还是成长很多的。目前在新公司入职也一个多月了,也颇有一些感触。

2017-07-04 15:30:39 370

原创 使用python自动化处理三方数据入库工作

python自动化日常工作

2017-06-16 15:18:20 2141

原创 ping网站网址定时发送邮件任务

通过shell脚本监测ping状态和定时发送邮件

2017-06-07 10:14:25 1884

原创 LINUX搭建hadoop完全分布式集群的时候遇到的报错记录

在搭建完全分布式集群中遇到的问题

2017-03-29 18:50:52 546

原创 Linux 正则表达式(regular expression)

LINUX SHELL正则表达式使用有感

2017-03-28 10:37:49 600

原创 双系统安装

双系统安装,迁移window下的工作到Linux

2017-03-21 11:19:38 427

原创 Linux 脚本中使用变量的几个问题

主要梳理了一下LINUX SHELL中不同变量类型的具体含义和使用方法,环境变量,本地变量,位置变量等

2017-03-14 16:47:45 1571

原创 《统计学习方法》--学习笔记

《统计学习方法》读书笔记

2016-11-30 17:07:36 312

原创 Python核心编程学习-Regular Expressions

Python核心编程的阅读笔记

2016-11-22 17:30:05 298

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除