NLP
Leo_Xu06
深度厌学中...
展开
-
用scikit-learn的三种词袋(BoW)生成方法为机器学习任务准备文本数据
用scikit-learn为机器学习任务准备文本数据翻译 2017-09-30 23:43:17 · 9891 阅读 · 0 评论 -
爬虫常用的正则表达方式
python里的正则化库re,使用方法:import reline = 'boooooobby123'regex_str = "^b.*3$"re.match(regex_str, line)正则化用到的特殊字符^ $ * ? {2} {2, } {2,5} |[][^] [] [^] [a-z]\s \S \w \W[\u4E00-\u9FA5] () \d...原创 2018-06-13 17:00:48 · 1148 阅读 · 0 评论