去除标点:
cat train.en | sed 's/[[:punct:]]//g' > train.clean.en
大写转小写:
cat train.en | tr A-Z a-z > train.lower.en
同样可以小写转大写。
两个空格合并为一个空格:
cat train.en | sed 's/ / /g' > train.clean.en
这三个操作可以放在一起:
cat train.en | sed 's/[[:punct:]]//g' | sed 's/ / /g' | tr A-Z a-z > train.clean.en