一、中文自然语言处理的完整机器处理流程 nlp笔记
中文自然语言处理
获取语料:语言材料,文本集合。
语料预处理:
1.数据清洗:整理出感兴趣的内容
2.分词:将文本全部进行分词,基于字符串匹配,统计的分词方法,规则的分词方法
3.词性标注:形容词,动词,名词等
4.去停用词:标点符号,人称,语气词等,由具体场景定
特征工程
1.词袋模型:不考虑出现的顺序,直接放一个集合,统计出现的次数,频率
2.词向量 :将字、词语转换成向量矩阵的计...
原创
2019-04-10 10:04:37 ·
770 阅读 ·
0 评论