Hive
文章平均质量分 54
xipenfei
这个作者很懒,什么都没留下…
展开
-
大数据离线--数据管理简介
本次介绍数据管理的知识,分为三个部分:数据源数据管理数据仓库1. 数据源典型的数据分析系统, 要分析的数据种类其实是比较丰富的。 依据来源可 大体分为以下几个部分: 业务系统业务系统产生的数据是不可忽视的,比如电商网站,大量的订单数据看似杂乱章,实则蕴含潜在的商业价值,可以从中分析进而进行商业推广,产品推荐等。 另一角度来看,业务系统数据获取成本低、方式容...原创 2018-09-15 21:38:26 · 2969 阅读 · 0 评论 -
大数据离线---网站日志流量分析系统(2)---数据获取和预处理
本次接上一篇,进行实际数据的获取和预处理,会有较多的代码内容数据的获取数据的预处理数据的获取需求数据采集的需求广义上来说分为两大部分。是在页面采集用户的访问行为,具体开发工作:1、 开发页面埋点 js,采集用户访问行为2、 后台接受页面 js 请求记录日志是从 web 服务器上汇聚日志到 HDFS,是数据分析系统的数据采集,具体的技术实现有很多方式:Shell 脚本...原创 2018-09-19 17:29:11 · 3123 阅读 · 0 评论 -
大数据离线---Hive的表操作介绍
这次我们主要针对hive的操作表做简单的介绍:托管表和外部表分区和桶这2个部分做简介Hive表格逻辑上有存储的数据和描述表格中数据形式的相关元数据组成。数据一般存储在HDFS上,也可以存放在本地文件系统中。元数据存放在关系数据库中。1. 托管表和外部表托管表hive会把数据移动到它的仓库,这里使用的是load的命令,把文件系统的数据移动到hive的仓库目录,如果数据和表的结构...原创 2018-10-06 12:16:37 · 708 阅读 · 0 评论 -
大数据---Hive的安装和启动
本次介绍Hive的安装和启动Hive的安装Hive的启动Hive的安装上传安装包并解压上传文件到需要安装的目录,解压。tar -zxvf hive-1.2.1.tar.gz修改配置文件配置元数据库信息 1) 配置HIVE_HOME环境变量 vi conf/hive-env.sh 配置其中的$hadoop_home 2)配置元数...原创 2018-10-13 13:48:04 · 205 阅读 · 0 评论