NLP相关基础概念
文档(document):是指一段单独的文本信息。可能是一则短信、一条推特、一份邮件、一本书、或者一首歌词。一般一个文档对应于一个观测值或一行数据。
词语(token):例如“今天天气真好”这个文档,是由今天,天气,真好三个单词组成的。token相当于机器学习中的特征(列)。
预料(corpus):文档的集合(预料大于等于一条文档)。这相当于我们要研究对象的所有文本数据。
(1)数据清洗:去除一切不相关的字符,比如清楚无关信息
正则表达式(re)
Sub:检查和替换
语法:
re.sub(pattern,repl,string)
参数:
pattern:正则中的模式字符串
repl:替换的字符串,也可为一个函数
string:要被查找替换的原始字符串
Findall:匹配的所有子串,并放回一个列表
语法:
</