![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Linux
Li_GaoGao
这个作者很懒,什么都没留下…
展开
-
Linux中查看各文件夹大小命令du -h --max-depth=1
du [-abcDhHklmsSx] [-L <符号连接>][-X <文件>][–block-size][–exclude=<目录或文件>] [–max-depth=<目录层数>][–help][–version][目录或文件]常用参数:-a或-all 为每个指定文件显示磁盘使用情况,或者为目录中每个文件显示各自磁盘使用情况。-b或-bytes...原创 2019-11-28 14:59:01 · 453 阅读 · 0 评论 -
使用 python 构建基于 hadoop 的 mapreduce的实操
MapReduce编程模型概述MapReduce应用广泛的原因之一在于它的易用性。它提供了一个因高度抽象化而变得异常简单的编程模型。MapReduce是在总结大量应用的共同特点的基础上抽象出来的分布式计算框架,它适用的应用场景往往具有一个共同的特点:任务可被分解成相互独立的子问题。基于该特点,MapReduce编程模型给出了其分布式编程方法,共分5个步骤:迭代(iteration):遍历输...原创 2019-11-28 12:07:13 · 266 阅读 · 0 评论 -
python 处理文件的时候 程序运行过程中被 killed
小量数据测试时没问题,数据量到几百万时killed怀疑内存使用问题:代码for line in file.readlines(): 改成:for line in open("file","r")下面这种不用一次性把数据读到内存。...原创 2019-10-15 18:57:32 · 6868 阅读 · 1 评论 -
python 字典处理的一些坑
处理任务:几十万数据,目标,把重复数据的top,找出来。类似这样第一次:dict = {item: list.count(item) for item in set(list)}这样建字典太慢了,几十万更本处理不过来第二次:if num not in num_dic.keys(): num_dic[num] = 1else:num_dic[num] +=1还是太...原创 2019-10-14 14:25:03 · 666 阅读 · 0 评论 -
linux的定时任务
定时任务的需求:每小时跑一次每天跑一次等实现方式:crontab操作方法:crontab -u //设定特定用户的定时服务crontab -l //列出当前用户定时服务内容crontab -r //删除当前用户的定时服务crontab -e //编辑当前用户的定时服务在编辑前,先看下:在设定编辑之前都建议列出服务查看一下:crontab -l编辑crontab -e使用...原创 2019-10-12 15:34:59 · 1074 阅读 · 1 评论 -
linux常用命令锦集
开始在linux下进行开发工作,很多命令行给人一种奇技淫巧的感觉,常用的记录在此,常做补充可以用 man查看使用方法catcutgrepawksedscpwgetnohupssh原创 2019-09-05 17:01:34 · 217 阅读 · 0 评论 -
vim 打开中文乱码
set fileencodings=utf-8,gb2312,gb18030,gbk,ucs-bom,cp936,latin1set enc=utf8set fencs=utf8,gbk,gb2312,gb18030亲测能用原创 2019-09-25 21:00:23 · 201 阅读 · 0 评论