日常小记整理2

-cat只能看明文的数据
-text可以看压缩的数据

//更新:20170224晚7点 星期五 

**对mapreduce输出进行压缩
mapred.output.compress=true
mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec

**对map输出进行压缩
mapred.compress.map.output=true
mapred.compress.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec

**全局排序
我感觉在全局排序的时候,第二种方法(多reduce)——它的思想就是分桶设计,设flag(标记来自哪个输入文件),然后进行排序。就像是mapreduce框架里的partition机制一样。
-jobconf stream.num.map.output.key.fields=2 \
-jobconf num.key.fields.for.partition=1 \
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner

**
如果不配置reduce个数,默认为1个reduce。##下次打开网页(tracking URL)里查看下map和reduce个数

**
有时候在集群上做mapreduce job时,call master,连接不通,原因是没有开启Hadoop集群。(/usr/local/src/hadoop-1.2.1/bin下,执行./start-all.sh)



//更新:20170227上午11点 星期一

*******************************
Python...中不能直接将含有数的字符串print到屏幕上,需要转码(将数转换成字符串string格式)才能打印到屏幕上


*******************************
执行Python脚本报错:

SyntaxError: Non-ASCII character '\xef' in file deinstall_mysql_5.7.py on line 8, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

解决办法:

源代码文件第一行添加:#coding:utf-8


//更新:20170307 下午3点 星期二
**中文分词第一次

*******************************
看源码时,如果要看某个函数的实现,可以用命令(比如grep --color -nrw cut .  ##"."点表示就在当前这层目录)


*******************************
# cp -raf segment/ /home/badou/python_mr/webpy_fenci
# chmod 755 segment/


**推荐算法第1次——(基于内容)

*******************************
看jieba分词工具有多大的命令 # du -sh *


*******************************
# chmod 755 jieba-master/ 这句命令是什么意思

*******************************
基于内容的推荐算法


//更新:20170825 下午7点 星期五
1.两条命令
free -g
df -Th
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值