自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 企业级hive调优

hive的企业级调优1、Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算例如:select * from score;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台在hive-default.xml.template文件中 hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查找

2021-02-17 18:35:51 206 2

原创 Hive 主流文件存储格式对比

Hive 主流文件存储格式对比1、存储文件的压缩比测试1.1 测试数据https://github.com/liufengji/Compression_Format_Datalog.txt 大小为18.1 M1.2 TextFile创建表,存储数据格式为TextFilecreate table log_text (track_time string,url string,session_id string,referer string,ip string,end_user_

2021-02-17 18:00:09 296

原创 Hive的查询语法

1.基本查询注意SQL 语言大小写不敏感SQL 可以写在一行或者多行关键字不能被缩写也不能分行各子句一般要分行写使用缩进提高语句的可读性1.1 查询全表和特定列全表查询select * from stu;选择特定列查询select id,name from stu;1.2 列起别名重命名一个列紧跟列名,也可以在列名和别名之间加入关键字 ‘as’案例实操select id,name as stuName from stu;1.3 常用函

2021-02-17 17:53:29 276

转载 SQL排名函数总结

1.ROW_NUMBER() 定义:ROW_NUMBER()函数作用就是将select查询到的数据进行排序,每一条数据加一个序号,他不能用做于学生成绩的排名,一般多用于分页查询,  比如查询前10个 查询10-100个学生。 实例: 1.1对学生成绩排序   这里number就是每个学生的序号 根据studentScore(分数)进行desc倒序 1.2获取第二个同学的成绩信息   这里用到的思想就是 分页查询的思想 在原s...

2020-11-14 20:51:48 935

原创 机器学习模型总结

线性回归模型线性回归模型的特点优点线性模型形式简单,可解释性强,容易理解和实现缺点线性模型怒能表达复杂的模式,对于非线性问题表现不佳应用领域金融领域,气象预报,特别适用于能够用线性关系进行描述的问题领域模型实现from sklearn import linear_modelimport numpy as npmodel = linear_mod...

2020-03-02 08:38:13 247

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除