旅游评论情感分析(2)---前期调查

本文介绍了作者在进行旅游评论情感分析项目时的前期调查,涉及数据爬取、词袋模型、Word2vec、随机森林、递归神经网络等方法,并探讨了数据预处理、文本分词、特征提取和模型选择的重要性。文中提到了Kaggle比赛中的优秀方案,包括朴素贝叶斯、LSTM、XGBoost和多种评论分类算法的应用。
摘要由CSDN通过智能技术生成

说实话,因为我们学校的老师之前从事的都是图像识别工作。对NLP领域相对没有那么的熟悉,所以摆在我们面前的难度其实还是挺困难的。

就如上文所讲,我们爬虫各种网站准备数据的时间大约花了10多天左右。然后就是期间接触到了上述三种爬虫的方法,json,xpath,正则表达式。

*但是实际上正则表达式,我运用并没有很好。所以立一个flag,在整理完这个项目的之后再专门开一个帖子进行正则表达式的整理。 *


***下面一些资料为4年之间自然语言处理之间的演变,有些乱可以直接跳到我的下一篇文章调查之后的总结 ***

*因为前面主要是我自己从4年前开始整理的一些相关比赛和资料,最后下一篇博客才是确定我们需要实现的nlp的最终方案。所以非常的乱!!! *

  • Bags of words—词袋模型
    kaggle上关于词袋模型的入门项目
    Bagofwords模型,也叫做“词袋”,在信息检索中,Bag of words model假定对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。

根据上述方法 词袋模型的一般步骤是

1.数据预处理
将每一句话中又含有<\br>的一些不需要的分隔符提前进行处理

2.文本分

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值