![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 92
JamSlade
这个作者很懒,什么都没留下…
展开
-
NLP复习大纲
将字符序列转换为标记(token)序列的过程。从输入字符流中生成标记的过程叫作标记化(tokenization),在这个过程中,词法分析器还会对标记进行分类分句分词预处理过程原始数据文件非数字字符的符号转化为空,大小写转换文本标记化 —— 分词去停用词词性标注词干提取/词形还原统计排序词干提取 - Stemming词干提取是去除单词的前后缀得到词根的过程。大家常见的前后词缀有「名词的复数」、「进行式」、「过去分词」抽取词的词干或词根形式不一定能够表达完整语义。原创 2023-02-25 20:30:47 · 932 阅读 · 0 评论 -
自然语言表达处理笔记01—— 1.正则表达式 2.文本标记化 3.词干提取和词形还原 4.中文分词
拿出表达式和文本中字符比较,若每个字符可成功匹配,则返回成功,反之返回失败。存在多个匹配项则按照搜索设定返回全部或部分返回。可以使用python中的re模块来进行操作功能正则表达式的一些规则。原创 2022-10-03 19:01:37 · 790 阅读 · 0 评论