日常小记整理2

最新推荐文章于 2023-09-30 17:33:05 发布

Robin_just

最新推荐文章于 2023-09-30 17:33:05 发布

阅读量270

点赞数

分类专栏：大数据开发

本文链接：https://blog.csdn.net/shaguabufadai/article/details/74856824

版权

大数据开发专栏收录该内容

12 篇文章 0 订阅

订阅专栏

-cat只能看明文的数据
-text可以看压缩的数据

//更新：20170224晚7点 星期五 

**对mapreduce输出进行压缩
mapred.output.compress=true
mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec

**对map输出进行压缩
mapred.compress.map.output=true
mapred.compress.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec

**全局排序
我感觉在全局排序的时候，第二种方法(多reduce)——它的思想就是分桶设计，设flag(标记来自哪个输入文件)，然后进行排序。就像是mapreduce框架里的partition机制一样。
-jobconf stream.num.map.output.key.fields=2 \
-jobconf num.key.fields.for.partition=1 \
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner

**
如果不配置reduce个数，默认为1个reduce。##下次打开网页（tracking URL）里查看下map和reduce个数

**
有时候在集群上做mapreduce job时，call master，连接不通，原因是没有开启Hadoop集群。（/usr/local/src/hadoop-1.2.1/bin下，执行./start-all.sh）



//更新：20170227上午11点 星期一

*******************************
Python...中不能直接将含有数的字符串print到屏幕上，需要转码(将数转换成字符串string格式)才能打印到屏幕上


*******************************
执行Python脚本报错：

SyntaxError: Non-ASCII character '\xef' in file deinstall_mysql_5.7.py on line 8, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

解决办法：

源代码文件第一行添加：#coding:utf-8


//更新：20170307 下午3点 星期二
**中文分词第一次

*******************************
看源码时，如果要看某个函数的实现，可以用命令（比如grep --color -nrw cut .  ##"."点表示就在当前这层目录）


*******************************
# cp -raf segment/ /home/badou/python_mr/webpy_fenci
# chmod 755 segment/


**推荐算法第1次——（基于内容）

*******************************
看jieba分词工具有多大的命令 # du -sh *


*******************************
# chmod 755 jieba-master/ 这句命令是什么意思

*******************************
基于内容的推荐算法


//更新：20170825 下午7点 星期五
1.两条命令
free -g
df -Th

Robin_just

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
日常小记整理2

-cat只能看明文的数据-text可以看压缩的数据//更新：20170224晚7点星期五 **对mapreduce输出进行压缩mapred.output.compress=truemapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec**对map输出进行压缩mapred.compress.map.out
复制链接

扫一扫

专栏目录