数据分析
popofzk
准研究生,方向:机器学习 深度学习 自然语言处理
展开
-
正则表达式基础
爬虫流程: 正则表达式 正则表达式由字符和操作符组成 常用操作符: 举例: 经典正则表达式: ) eg: ) Re库: re库可以采用raw string类型表示正则表达式,表示为: r'text', PS: raw string是不包含对转义符再次转义的字符串 例如: r'[1‐9]\d{5}' r'\d{3}‐\d{8}|\d{4}‐\d{7}' Re库主要函数: ) re.sear...原创 2020-04-18 22:40:00 · 147 阅读 · 0 评论 -
文本处理中常见的str、list等格式转换
归纳 在文本处理的nlp领域,经常需要将大量文本格式进行不断的转换进而达到模型输入的需求,每次转换我总在尝试,也觉得很费时间,希望能够总结一些常见类型转换,方便以后随时调用。 常用的函数: split: str.split(str="", num=string.count(str)) split() 通过指定分隔符对字符串进行切片,如果参数 num 有指定值,则分隔 num+1 个子字符串 ...原创 2020-02-29 11:03:41 · 1245 阅读 · 0 评论