\W+:匹配一个或多个非字母进行切割,匹配到的非字母不缓存; (\W+):匹配一个或多个非字母进行切割,匹配到的非字母全部缓存 原因:把标点符合 缓存出来的原因是 用于尝尽比如对于一个文章的内容分析,一段一段