NLP
讲故事的猫猫
微博:小说家讲故事的猫猫
知乎:讲故事的猫猫
展开
-
1. NLP基础 规则切词--正向,反向,双向最大匹配法
1、正向最大匹配正向最大匹配首先你要有一个匹配词库,你知道你匹配词库中长度最长的词的长度,假设是3你取出头3个字去匹配词库,如果匹配不上就取头2个字,直到你能匹配上,你的起始指针就向后移动。class MM(): def __init__(self): self.window_size = 0 self.dic = ['研究', '研究生', '生命', '命', '的', '起源'] def get_window_size(s原创 2020-05-13 17:27:30 · 957 阅读 · 0 评论 -
0.NLP基础之正则表达式
正则表达式在NLP中有广泛的运用,一般用在文本清洗和过滤中,可以把我们的关注的文本内容选取出来再利用机器学习的技术。否则我们一股脑未经筛选,将所有的文本丢到模型中,模型会被大量的噪声干扰。示例:import retext_string = "文本最重要的来源无疑是网络。我们要把网络中的文本获取形成一个文本数据库。利用一个爬虫抓取到网络中的信息。爬取的策略有广度爬取和深度爬取。根据用...原创 2020-05-11 11:45:32 · 590 阅读 · 0 评论