- 博客(5)
- 收藏
- 关注
原创 企业级hive调优
hive的企业级调优1、Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算例如:select * from score;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台在hive-default.xml.template文件中 hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查找
2021-02-17 18:35:51 206 2
原创 Hive 主流文件存储格式对比
Hive 主流文件存储格式对比1、存储文件的压缩比测试1.1 测试数据https://github.com/liufengji/Compression_Format_Datalog.txt 大小为18.1 M1.2 TextFile创建表,存储数据格式为TextFilecreate table log_text (track_time string,url string,session_id string,referer string,ip string,end_user_
2021-02-17 18:00:09 296
原创 Hive的查询语法
1.基本查询注意SQL 语言大小写不敏感SQL 可以写在一行或者多行关键字不能被缩写也不能分行各子句一般要分行写使用缩进提高语句的可读性1.1 查询全表和特定列全表查询select * from stu;选择特定列查询select id,name from stu;1.2 列起别名重命名一个列紧跟列名,也可以在列名和别名之间加入关键字 ‘as’案例实操select id,name as stuName from stu;1.3 常用函
2021-02-17 17:53:29 276
转载 SQL排名函数总结
1.ROW_NUMBER() 定义:ROW_NUMBER()函数作用就是将select查询到的数据进行排序,每一条数据加一个序号,他不能用做于学生成绩的排名,一般多用于分页查询, 比如查询前10个 查询10-100个学生。 实例: 1.1对学生成绩排序 这里number就是每个学生的序号 根据studentScore(分数)进行desc倒序 1.2获取第二个同学的成绩信息 这里用到的思想就是 分页查询的思想 在原s...
2020-11-14 20:51:48 935
原创 机器学习模型总结
线性回归模型线性回归模型的特点优点线性模型形式简单,可解释性强,容易理解和实现缺点线性模型怒能表达复杂的模式,对于非线性问题表现不佳应用领域金融领域,气象预报,特别适用于能够用线性关系进行描述的问题领域模型实现from sklearn import linear_modelimport numpy as npmodel = linear_mod...
2020-03-02 08:38:13 247
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人