BigData
文章平均质量分 80
liubindestiny
多看看,多学学,多写写
展开
-
HIVE SQL笔记
HIVE中SQL根据某列去重 如一个表trans_table有三个列,trans_date,user_id,trans_money,每个user可能有多个交易记录,想只取一条,可以用如下命令: select * from (select *, row_number() over(partition by user_id order by trans_money desc) num from t...原创 2018-07-12 10:38:52 · 177 阅读 · 0 评论 -
Spark DataFrame 笔记
Spark DataFrame 笔记 记录一些DataFrame的常用操作,防止之后自己忘记,也方便查阅 1. 给一个DataFrame添加ID列 在使用Spark mllib的CountVectorize时候,数据格式是 id 内容 0 “This is a sentence” 1 “This is also a senten” 但是很多时...原创 2018-07-13 16:15:48 · 1086 阅读 · 0 评论