![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 88
Python风控模型与数据分析
这个作者很懒,什么都没留下…
展开
-
文本分类-Word2vec+LSTM
LSTM是专门用于处理序列数据(文本序列、时间序列)等的RNN模型之一,本文分别按照embedding+LSTM、word2vec预训练模型+双向LSTM两种方式进行文本分类的代码实战,附带LSTM层参数详解,尽可能给读者带来多的收获原创 2023-09-26 09:00:00 · 1059 阅读 · 2 评论 -
文本分类- Embedding/Wordvec+DNN
本文介绍embedding原理,并分别按照embedding+DNN、word2vec预训练模型+DNN、word2vec+DNN微调三种方式进行文本分类的代码实战,附带参数详解,尽可能给读者带来多的收获原创 2023-09-06 09:30:00 · 363 阅读 · 1 评论 -
Word2vec原理及参数详解
Word2Vec有两种主要的模型架构:连续词袋模型(Continuous Bag of Words,简称CBOW)和跳字模型(Skip-gram)。训练Word2Vec的核心目标是通过调整单词向量的权重,使得模型能够最小化实际上下文单词的预测误差,得到的词向量可用于文本分类、文本相似度、推荐等下游任务。通过多次迭代,模型将学习到单词向量,这些向量在向量空间中能够捕获单词之间的语义关系,使得具有相似语义的单词在向量空间中距离较近。原创 2023-08-30 10:00:00 · 2957 阅读 · 0 评论 -
文本分类-One Hot+DNN
上篇介绍了常规统计特征及tf-idf关键词特征的文本分类方法,本篇介绍One-Hot+DNN原理和文本分类代码实战,读者掌握了这些基础,后续就可以逐步深入理解和学习了。原创 2023-08-21 10:00:00 · 166 阅读 · 1 评论 -
文本分类-统计特征(含tfidf) +lgb
从整体结果可以看到在当前数据集中,因为大量的关键词和类别相扣,所以一般的统计特征效果较差,主要还是tf-idf的关键词特征效果较好。分别统计文本词数、字符数、平均词长度、停用词数量、逗号/句号数量、小写/大写字母数、句子数量,以及情感倾向性评分。使用文本多分类数据,本文仅使用YouTube、India Today两类文章做二分类。从nltk包倒入停用词,并导包textblob、可用于做英文情感倾向性预测。关注公众号Python,回复 文本分类1 获取本篇数据及代码。(1)统计特征+tfidf特征效果。原创 2022-12-01 12:36:16 · 472 阅读 · 1 评论 -
tf-idf原理 & TfidfVectorizer参数详解及实战
tf-idf作为文体特征提取的常用统计方法之一,适合用于文本分类任务,本文从原理、参数详解及实战全方位详解tf-idf,掌握本篇即可轻松上手并用于文本数据分类。tf 表示(某单词在某文本中的出现次数/该文本中所有词的词数),idf表示(语料库中包含某单词的文本数、的倒数、取log),tf-idf则表示,tf-idf认为词的重要性随着它在文本中出现的次数成正比增加,但同时会随着它在整个语料库中出现的频率成反比下降。idf表达式如下,其中k为包含某词的文本数,n为整个语料库的文本数。...原创 2022-09-05 17:33:16 · 12702 阅读 · 2 评论