sklearn中CountVectorizer里token_pattern默认参数解读
前言
今年早些时候参加比赛,用到了sklearn中的CountVectorizer函数,函数比较简单,就是把每一行文本变成词的向量形式,当然可以用ngram的参数,保留一些局部的序的关系,总之,在很多比赛中都很好用的一个方案。但是它其中的token_pattern默认参数是用一则正则表达式来描述的,我又不理解,同时对于待转换的文本中又没有匹配上单独的一个词(比如单独的一个a或者1等等单个的字符),...
原创
2018-12-07 17:20:06 ·
7809 阅读 ·
2 评论