![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
文本分类
文章平均质量分 91
报告,今天也有好好学习
积极、主动、加油
展开
-
对知乎和微博上网友们在热门话题讨论的内容进行情感分析和关键词提取
分享我以前的一个小项目:知乎-微博平台下有关接种新冠疫苗的舆情分析以及引导建议。那在这里我就不介绍选题的背景了,相信大家应该也都了解。而本篇博客主要会介绍此次项目的实现过程以及最终的分析和总结,希望对你有所帮助!文末附完整代码链接。目录1 系统主要模块流程1.1 爬取数据1.1.1 平台分布1.1.2 获取文本内容1.1.2.1 微博1.1.2.2 知乎1.2 数据观察1.3 数据预处理1.3.1 微博文本1.3.2 知乎文本1.4 文本分词1.5 文本特征提取1.6 模型建立与训练1.7 提取关键词原创 2021-08-04 22:50:49 · 24865 阅读 · 16 评论 -
轻松搞懂【TF-IDF、word2vec、svm、cnn、textcnn、bilstm、cnn+bilstm、bilstm+attention实现】英文长文本分类
项目来源:https://www.kaggle.com/c/word2vec-nlp-tutorial/之前我写过几篇博客:就这?word2vec+BiLSTM、TextCNN、CNN+BiLSTM、BiLSTM+Attention实现中英文情感分类代码详解就这?word2vec+SVM(支持向量机)实现中英文情感分类代码详解这两篇博客主要是基于中文进行情感分类的,那么本篇博客,我会以这个kaggle项目来介绍如何实现英文长文本情感分类。1 实验数据本次数据集来源于kaggle项目“Bag o原创 2021-07-03 10:25:00 · 31318 阅读 · 83 评论 -
常见的文本特征(句向量)提取方法有哪些?什么是One-Hot、TF-IDF?word2vec如何训练?【Python】
文本特征提取的方法目前已经有很多种,传统的提取方法有平权统计、TF-IDF等,神经网络的方法有word2vec,接下来我会具体对这三种方法进行介绍,以及如何用代码实现。平权统计平权统计非常容易理解,参见下述代码。# 特征向量化——稀疏表示from sklearn.feature_extraction.text import CountVectorizervectorizer = CountVectorizer()corpus = ['This is the first document.',原创 2021-07-03 01:23:48 · 32656 阅读 · 4 评论 -
轻松搞懂word2vec / FastText + SVM(支持向量机)实现中英文情感分类
就这?word2vec+BiLSTM、TextCNN、CNN+BiLSTM实现中英文情感分类代码详解上一篇博客,我们介绍了如何利用几种深度学习的模型对于中文文本进行情感分类,讲的非常的详细啊,那在这里我也不过多重复与上一篇博客相同的内容,感兴趣的朋友可以自行点击查看。在这篇博客中,我将详细介绍如何利用常见的机器学习模型——支持向量机,进行文本情感分类。具体流程前期从最开始的数据集准备,到训练word2vec模型,全部都跟上一篇博客是一样的流程,这里就不重复了。提取句特征到这里之前,我们已经训练原创 2021-06-19 16:21:58 · 49986 阅读 · 97 评论 -
轻松搞懂Word2vec / FastText+BiLSTM、TextCNN、CNN+BiLSTM、BiLSTM+Attention实现中英文情感分类
前言讲道理,这篇博客应该可以帮助很多只有一点点NLP的朋友,在较短的时间内了解文本分类的整个过程并用代码复现整个流程。事先说明,这里大家先不要过分要求自己去理解整个模型的原理,先搞清楚整个实现流程,体验一下敲代码并成功应用的快感。实现流程找数据集首先第一步,就是要找好数据集,没有数据集模型怎么学习,怎么涨知识。那这里呢,我们采用的情感数据集是weibo_senti_100k数据集,一共有119988条带情感标注的新浪微博评论,其中正负向评论均为 59994条,非常平衡的一个数据集。其中lab.原创 2021-06-17 19:47:09 · 65119 阅读 · 505 评论