数据分析
popofzk
准研究生,方向:机器学习 深度学习 自然语言处理
展开
-
正则表达式基础
爬虫流程:正则表达式正则表达式由字符和操作符组成常用操作符:举例:经典正则表达式:)eg:)Re库:re库可以采用raw string类型表示正则表达式,表示为: r'text', PS: raw string是不包含对转义符再次转义的字符串例如:r'[1‐9]\d{5}'r'\d{3}‐\d{8}|\d{4}‐\d{7}'Re库主要函数:)re.sear...原创 2020-04-18 22:40:00 · 131 阅读 · 0 评论 -
文本处理中常见的str、list等格式转换
归纳在文本处理的nlp领域,经常需要将大量文本格式进行不断的转换进而达到模型输入的需求,每次转换我总在尝试,也觉得很费时间,希望能够总结一些常见类型转换,方便以后随时调用。常用的函数:split: str.split(str="", num=string.count(str)) split() 通过指定分隔符对字符串进行切片,如果参数 num 有指定值,则分隔 num+1 个子字符串...原创 2020-02-29 11:03:41 · 1186 阅读 · 0 评论