- 博客(14)
- 资源 (95)
- 收藏
- 关注
原创 数据仓库(十)---分布式SQL查询引擎---presto安装部署和连接hive使用
我们在上一章已经了解了presto的简介,本章进行部署和使用。官网教程https://prestodb.io/docs/current/installation.html http://prestodb-china.com/docs/current/installation/deployment.html (京东版本) https://teradata.github.io/presto...
2018-02-28 18:08:32 4233
原创 数据仓库(十一)---hive使用小技巧积累(持续更新)
我们在本章节会持续更新关于hive使用过程中的一些实用的小技巧HIVE 查询显示列名 及 行转列显示hive shell;set hive.cli.print.header=true; // 打印列名 set hive.cli.print.row.to.vertical=true; // 开启行转列功能, 前提必须开启打印列名功能 set hive.cli.print.row.t...
2018-02-28 16:26:13 930
原创 hadoop基础----hadoop实战(十二)-----Hadoop配置修改和配置文件同步脚本
我们在hadoop使用过程中经常会有需要调整配置的时候Hadoop配置修改有两个方式后台修改通过管理后台直接修改的配置会自动修改所有集群机子的配置。而且会提醒是否需要重启哪些服务。 如下:手动修改如果是手动修改的话,需要知道配置文件存放的路径,CDH安装的可以参考文章: hadoop基础—-hadoop实战(十一)—–hadoop管理工具—CDH的目录结构了解例如 ...
2018-02-28 16:01:51 2556 1
原创 数据仓库(九)---hive的性能优化---hive索引机制和原理
我们在上一章学习了hive的动态分区,本章来学习另外一种优化的手段 索引。 数据仓库(八)—hive的性能优化—hive动态分区hive索引介绍Hive的索引目的是提高Hive表指定列的查询速度。 没有索引时,类似’WHERE tab1.col1 = 10’ 的查询,Hive会加载整张表或分区,然后处理所有的rows, 但是如果在字段col1上面存在索引时,那么只会加载和处理文件的一...
2018-02-27 17:22:47 9614 1
原创 数据仓库(八)---hive的性能优化---hive动态分区
我们在上一篇文章中已经学习了如何进行分区,手动分区。 数据仓库(七)—hive的性能优化—hive的分区和分桶 但是分区之后 再插入数据时,并不会自动的进行分区,而是需要再次手动分区。 关系型数据库(如Oracle)中,对分区表Insert数据时候,数据库自动会根据分区字段的值,将数据插入到相应的分区中,Hive中也提供了类似的机制,即动态分区(Dynamic Partition),只不过,...
2018-02-27 11:13:56 4936
原创 数据仓库(七)---hive的性能优化---hive的分区和分桶
我们本章进行hive的优化学习分区和分桶。hive分区背景1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。 2、分区表指的是在创建表时指定的partition的分区空间。 3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,...
2018-02-27 10:03:27 4991
原创 数据仓库(六)---分布式SQL查询引擎---presto介绍
我们在之前的文章中已经学习了数据仓库hive,如果要对数据仓库进行交互查询,则需要交互查询的引擎用于提高查询效率。本章介绍presto。简介Presto是一个开源的分布式SQL查询引擎,适用于实时交互式分析查询,支持海量的数据;主要是为了解决商业数据仓库的交互分析,和处理速度低下的问题。它支持标准的ANSI SQL,包括复杂查询、聚合(aggregation)、连接(join)和窗口函数(...
2018-02-23 17:38:55 6330 1
转载 调研----小米架构师:亿级大数据实时分析与工具选型
讲师介绍 欧阳辰,超过15年的软件开发和设计经验,目前就职于小米公司,负责小米广告平台的架构研发。曾为微软公司工作10年,担任高级软件开发主管,领导团队参与微软搜索索引和搜索广告平台的研发工作。曾在甲骨文公司从事数据库和应用服务器的研发工作。热爱架构设计和高可用性系统,特别对于大规模互联网软件的开发,具有丰富的理论知识和实践经验。大家好,很高兴能跟大家分享一些关于实时数据分析的话题。...
2018-02-22 19:03:00 5496 1
转载 数据分析团队的搭建与思考
大家早上好,非常高兴能来参加这次上海站的数据驱动增长大会。以前说到数据驱动业务增长,我们第一个想到的可能是数据分析的方法。但就目前来看,数据驱动业务的增长已经成为一个不仅仅是分析方法和模型,而是包括了数据人才培养、数据架构的设计,甚至整个公司组织架构设计的企业治理问题。所以今天我想从途家数据团队的发展、部门的构成及职责这两个方面去跟大家分享一下途家网的一些实践。如果对一个公司的业务没有足够...
2018-02-22 18:48:16 7800 2
转载 用户行为服务系统架构调研----电信用户行为分析系统架构
2基于云计算的系统总体设计方案 2.1系统总体技术架构 本文设计的移动互联网用户行为分析引擎通过云计算技术实现分布式并发的大规模计算能力,构建移动互联网端到端的大数据挖掘分析系统,实现对DPI和应用平台用户上网行为的偏好分析,提供个性化推荐服务,打通从数据采集、分析到服务提供、营销执行的全过程。 系统通过FTP服务器获取数据,在接口层采用分布式计算与批量处理相结合的方式,将大数据...
2018-02-22 17:43:30 6974
转载 用户行为服务系统架构调研----携程实时用户行为服务系统架构实践
携程实时用户行为服务作为基础服务,目前普遍应用在多个场景中,比如猜你喜欢(携程的推荐系统)、动态广告、用户画像、浏览历史等等。 以猜你喜欢为例,猜你喜欢为应用内用户提供潜在选项,提高成交效率。旅行是一项综合性的需求,用户往往需要不止一个产品。作为一站式的旅游服务平台,跨业务线的推荐,特别是实时推荐,能实际满足用户的需求,因此在上游提供打通各业务线之间的用户行为数据有很大的必要性。 携程原有的实...
2018-02-22 11:33:06 1497
转载 大数据学习路线攻略
经常有初学者在博客和QQ问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么我就想问一下,你的专业是什么,对于计算机/软件,你的兴趣是什么?是计算机专业,对操作系统、硬件、网络、服务器感兴趣?是软件专业,对软件开发、编程、写代码感兴趣?还是数学、统计学专业,对数据和数字特别感兴趣。其实这...
2018-02-22 11:18:54 4935 1
原创 遇到问题----/var/log/messages被写满占空间
我们之前遇到过一个问题,日志文件把服务器空间占完了导致web服务不正常。 遇到问题——tomcat重新启动Insufficient space for shared memory file解决方式是把日志文件删除后恢复正常。但是过一段时间发现又满了。要彻底解决这个问题还得从日志文件的配置入手。/var/log/messages – 包含整个系统的信息,包括系统启动期间被记录的日志...
2018-02-22 10:42:38 17838
原创 遇到问题------tomcat重新启动Insufficient space for shared memory file
情况 线上的web项目css等样式突然失效,加载不出来。 想重新启动但是报错Insufficient space for shared memory file。 Java HotSpot(TM) 64-Bit Server VM warning: Insufficient space for shared memory file原因分析 根据排查是服务器的资源不足解决方式 使用命...
2018-02-15 16:37:39 1268
ssh框架搭建用到的包完整版.zip
2014-07-03
java通过class读写excel的例子
2014-07-01
整合spring和mongodb用到的包和配置文件
2014-01-21
springMVCHibernateShiroBootStrap框架
2017-11-16
cxselect选择城市
2017-09-13
ueditor1.4.3的jsp版utf-8
2017-07-03
bootstrap-fileinput-master.zip
2017-06-23
SpringMVC+Shiro+MongoDB+BootStrap基础框架
2017-05-16
SpringMVC+Shiro+MongoDB基础框架
2017-05-15
hadoop-eclipse-plugin-1.2.1.jar
2016-09-14
hadoop2.2+hbase0.96+hive0.12安装整合详细高可靠文档及经验总结.pdf
2016-06-12
springMVC+maven+hibernate框架
2015-11-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人