我之前hadoop的环境都配好了
今天主要配置其他几种
第一步是flume的环境,这个直接解压压缩包,编辑一个conf文件
主要的功能,是监听一个目录,当此目录有数据或者文件发生变化时候,就记录
然后通过sink发送到另外一台虚拟机的hdfs
这样我另外一台虚拟机的hdfs上面就有数据了
第二步是hive的环境,这个也是直接解压,进入bin目录就能启动
当我在另外一个地方启动的时候,hive库原先的数据就消失了
此时我们需要引用mysql
第三步配置mysql,先要查看你的虚拟机上面有没有安装过mysql服务,有的话全部干掉
最难的是配置mysql,一定要细心
我老是报错,原因就是没给权限分配
给完权限之后,立马在mysql创建hive数据库
我们和可以用navicat来连接我们虚拟机上的mysql
最后就是sqoop了
我在一台虚拟主机上的,建立总表(一般都是外部表和分区表)
接着创建清洗表,从总表中找数据,插入清洗表(一般是内部表)
根据业务逻辑创建 业务逻辑表(一般是内部表),从清洗表中根据业务的计算规则,将数据计算后插入业务逻辑表
根据业务维度的特点,创建业务逻辑表。从业务逻辑表中插入数据到具体的业务维度表
为了满足可视化要求,还需要通过sqoop将hdfs的文件导出到mysql的指定表中