Beeline要与HiveServer2配合使用
优势:
可以使用JDBC来连接hive:
启动HiveServer2:
./~/~/hiveserver2
启动beeline:
-n root:(此root不是mysql的用户,而是我本虚拟机的用户,为了方便链接hdfs才写的root)
-w password:(密码可以随意,因为我访问hdfs并不需要密码)
注意:
默认用户名、密码是不用验证的,如果想开启可以修改hive.server2.authentication他默认的是NONE
写法1、
beeline -u jdbc:hive2://master:10000-n root -w password
因为不用验证可以直接写:
beeline -u jdbc:hive2://master:10000
写法2、
beeline进入客户端
!connect jdbc:hive2://master:10000
现在我们使用beeline来链接hive2:
1、停掉Metastore ,并直接命令行执行hiveserver2(因为设置了环境变量)
2、使用写法2进入beeline中 ,可执行sql语句等:show tables;等等
3、使用!quit退出
Hive建表的正则表达式
什么是数据清洗:
加入一篇网址的原始数据是:
数据清洗要做的就是将里面的代码清除掉