使用场景:
利用hadoop streaming与jieba分词工具处理语料(使用自定义字典)。
1.自定义字典替换jieba目录下的dict.txt
注:自定义字典格式:词(空格)词频(空格)词性,其中词频和词性可以省略
2.压缩jieba目录并上传
cd jieba
tar -zcvf jieba.tar.gz *
hadoop fs -put jieba.tar.gz (目标路径)
3.hadoop MapReduce
4.为segjb.py添加路径
使用场景:
利用hadoop streaming与jieba分词工具处理语料(使用自定义字典)。
1.自定义字典替换jieba目录下的dict.txt
注:自定义字典格式:词(空格)词频(空格)词性,其中词频和词性可以省略
2.压缩jieba目录并上传
cd jieba
tar -zcvf jieba.tar.gz *
hadoop fs -put jieba.tar.gz (目标路径)
3.hadoop MapReduce
4.为segjb.py添加路径