旅游评论情感分析(2)---前期调查总结

本文概述了自然语言处理(NLP)在旅游评论情感分析中的基本步骤,包括数据预处理、中文分词、特征提取、特征选择和分类模型。提到的工具和方法有jieba、word2vec、LSTM、朴素贝叶斯等,并分享了一个开源代码库作为学习模板。此外,提到了在实际项目中考虑采用的模型和改进方向。
摘要由CSDN通过智能技术生成

经过遍历了一下最近八年的自然语言处理的项目,比赛,算法。初步了解了一下流程之后,最后制定出来了一个大致的步骤。

以下是关于NLP的基本步骤

  1. 数据预处理
  2. 中文分词
    —— (方法)基于词典 基于规则 基于统计 基于字标注 基于人工智能
    ——(工具)哈工大资料,东北大学资料,中科院,波森,jieba,ansj,HanLP
  3. 特征提取
    —— (方法)根据词性,单词组合,位置
    —— (方式)词是否出现,词的次数
  4. 特征选择
    —— (方法)去停词,卡方,互信息
    —— (工具)word2vec, doc2vec
  5. 分类模型
    —— (NB-SVM, LSTM, 隐马尔科夫, 贝叶斯)
  6. 识别结果

其实可以把马尔科夫链看作是贝叶斯是他的延续
之后再github上面找到了一个开源的代码直接可以进行感情分析
而且作者真的巨良心,里面所有的代码没封装所以直接也可以根据他写的代码做一下二次开发,像我这种代码极其不规范的人来说,真的是一个很好的学习模板
下述是github上面readme的相关关于这个代码的方法总结
1.数据预处理

2.中文分析(Character-Based Generative Model)论文出处

3.特征提取
词性标注(TnT 3-gram 隐马)

4.特征选择
朴素贝叶斯

  • 4
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值