![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP初学
GlassySky0816
xuxu:kaggle Competitions Master(xuxu_sky)
展开
-
NLP初学-简易聊天机器人
import pandas as pd import fool import re import random from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.linear_model import LogisticRegression # ----------------------------...原创 2020-03-01 13:01:28 · 609 阅读 · 1 评论 -
NLP初学-文本表示
一、词袋模型(BOW) 词袋模型是一种简单常用的模型,在该模型中,我们可以把文本看做是一系列词的集合,我们用袋子来把他们装起来就叫做词袋,这么说可能有些抽象,用一个例子来表示一下: 有一段文本:"it is a beautiful day today" 进行分词处理:it/is/a/beautiful/day/today 得到词袋:("it","is","a","beautiful","d...原创 2020-02-29 18:34:22 · 327 阅读 · 0 评论 -
NLP初学-文本预处理
一.spell correction(拼写错误纠正) 1. 错写的单词与正确单词的拼写相似,容易错写;这里safari是否容易错写成saferi需要统计数据的支持;为了简化问题,我们认为字形越相近的错写率越高,用编辑距离来表示。字形相近要求单词之间编辑距离小于等于2,这里saferi与safari编辑距离为1,后面我们再具体了解编辑距离的定义。 2. 正确单词有很多,除去语义因素外最有可能的单...原创 2020-02-29 17:59:36 · 331 阅读 · 0 评论 -
NLP初学-Word Segmentation(分词)
最近在看一些NLP相关的内容,用博客记录整理一下。 无论是CV还是NLP,说到底是将图像和文本转化为数据的方式,在计算机中进行用不同算法进行处理。 对文本处理的第一步一般都是分词。现在有很多现成的分词工具:Jieba分词、SnowNLP、哈工大LTP、HanNLP等。 具体算法方面主要是最大匹配(Max Matching)和考虑语义(lncorporate Semantic)。 1. 前向...原创 2020-02-29 12:09:59 · 941 阅读 · 0 评论