旅游评论情感分析(2)---前期调查

最新推荐文章于 2024-07-22 19:27:12 发布

LXXPLUTO

最新推荐文章于 2024-07-22 19:27:12 发布

阅读量880

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LXXPLUTO/article/details/87353166

版权

本文介绍了作者在进行旅游评论情感分析项目时的前期调查，涉及数据爬取、词袋模型、Word2vec、随机森林、递归神经网络等方法，并探讨了数据预处理、文本分词、特征提取和模型选择的重要性。文中提到了Kaggle比赛中的优秀方案，包括朴素贝叶斯、LSTM、XGBoost和多种评论分类算法的应用。

摘要由CSDN通过智能技术生成

说实话，因为我们学校的老师之前从事的都是图像识别工作。对NLP领域相对没有那么的熟悉，所以摆在我们面前的难度其实还是挺困难的。

就如上文所讲，我们爬虫各种网站准备数据的时间大约花了10多天左右。然后就是期间接触到了上述三种爬虫的方法，json,xpath,正则表达式。

*但是实际上正则表达式，我运用并没有很好。所以立一个flag，在整理完这个项目的之后再专门开一个帖子进行正则表达式的整理。 *

***~~下面一些资料为4年之间自然语言处理之间的演变,有些乱可以直接跳到我的下一篇文章调查之后的总结~~ ***

*因为前面主要是我自己从4年前开始整理的一些相关比赛和资料，最后下一篇博客才是确定我们需要实现的nlp的最终方案。~~所以非常的乱！！！~~ *

Bags of words—词袋模型
kaggle上关于词袋模型的入门项目
Bagofwords模型，也叫做“词袋”，在信息检索中，Bag of words model假定对于一个文本，忽略其词序和语法，句法，将其仅仅看做是一个词集合，或者说是词的一个组合，文本中每个词的出现都是独立的，不依赖于其他词是否出现，或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。

根据上述方法词袋模型的一般步骤是

1.数据预处理
将每一句话中又含有<\br>的一些不需要的分隔符提前进行处理

2.文本分

最低0.47元/天解锁文章

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
旅游评论情感分析(2)---前期调查

说实话，因为我们学校的老师之前从事的都是图像识别工作。对NLP领域相对没有那么的熟悉，所以摆在我们面前的难度其实还是挺困难的。就如上文所讲，我们爬虫各种网站准备数据的时间大约花了10多天左右。然后就是期间接触到了上述三种爬虫的方法，json,xpath,正则表达式。*但是实际上正则表达式，我运用并没有很好。所以立一个flag，在整理完这个项目的之后再专门开一个帖子进行正则表达式的整理。 *...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。