一、 文本处理 1. tokenization 中英文分词 概念解释 即将完整的一句话 按照一个短语一个短语的进行断句 如 “我爱学习” --> “我” “爱” “学习” 也可以按单个字分词。 常用工具 jieba分词 清华大学的分词工具THULAC