![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
sad4luv
这个作者很懒,什么都没留下…
展开
-
NLP知识整理(上)
数据预处理 数据清洗 在拿到文本后需要使用re工具库来利用正则表达式对文本进行一些数据预处理和数据清洗的操作,目的是去除脏数据,保证数据的规范性和一致性,便于后期处理。 常见的操作有: ①统一计量单位,如将mg,g,kg,‘克’,‘千克’统一为kg,使不同单位之间的数字可以相互比较和计算。 ②缩略词替换,如将’can’t’转换成’can not’。 ③标点处理,去除掉’,/./。/!/…'等文本...原创 2019-01-07 13:12:55 · 238 阅读 · 0 评论 -
NLP知识整理(下)
机器学习模型 在完成特征抽取后,我们就将文本型数据转化成了规范的数字格式数据,可以送入机器学习模型或深度学习模型进行训练了。如果采用机器学习的方式,比较适合的模型有LR,LinearSVC, NaiveBayse,如果向量的维度不是很高很稀疏,一些树类模型如RandomForest, Xgboost, LightGBM也可以对其进行训练。 深度学习模型 随着近些年深度学习的发展,在计算力和数...原创 2019-01-07 13:23:33 · 412 阅读 · 0 评论