基础指令
小鸡仔_orz
这个作者很懒,什么都没留下…
展开
-
pyspark 获取分组的topk 数据
from pyspark import SparkContext, SparkConf from pyspark.sql import SparkSession, Window from pyspark.sql.types import IntegerType, StringType from pyspark.sql.functions import udf, col import pyspark.sql.functions as f new_data = new_data.select('u_id',.原创 2021-10-27 17:07:56 · 426 阅读 · 0 评论 -
hadoop linux常用指令
cat all_08 | sort | uniq >> all_uniq 对文件排序去重 wc -l 文件 统计文件行数 cat part-* >> all_part 合并多个文件 split -l 1048576 ipcam_fengshui.txt ipcam_ 将文件平均切分 hadoop fs -cat /home/eng/jiguifang/all_urls/part-* | wc -l 看文件总共有多少行 ps aux | grep "single_img.p.原创 2020-10-16 16:01:34 · 122 阅读 · 0 评论