NLP
文章平均质量分 57
swy_swy_swy
这个作者很懒,什么都没留下…
展开
-
NLP(VIII):使用PCA进行文本分析(一)
这一节我们使用PCA方法进行文本分析。原创 2023-03-20 10:32:27 · 577 阅读 · 1 评论 -
NLP(VII):使用sklearn进行文本情感分类(下)
这一节我们使用gensim来进行单词的向量化。原创 2023-03-18 10:25:06 · 431 阅读 · 0 评论 -
NLP(VI):使用sklearn进行文本情感分类(上)
这一节我们使用sklearn训练分类模型以实现对文本数据的情感分类。原创 2023-03-16 10:34:18 · 947 阅读 · 0 评论 -
NLP(V):实战分析推特及若干网站文本
这里我们使用beautifulsoup爬取wiki网页。首先安装requests。然后爬取网页。以下是一些将使用的小函数。原创 2023-03-14 17:36:40 · 958 阅读 · 0 评论 -
NLP(IV):使用VADER进行情感分析
VADER原创 2023-03-09 13:27:11 · 795 阅读 · 0 评论 -
NLP(III):n-gram语言模型
接下来我们分析生成的模型,其中一个指标是模型相对于测试集的困惑度(perplexity)。我们已经得到三个语言模型,现在我们可以使用这些模型生成一些虚拟的推文。当然,这些推文一眼bot。这里我们训练一元、二元以及三元模型(unigram, bigram, trigram)。请注意,n-gram模型是一个滑窗模型,因此在句首和句尾需要padding。原创 2023-03-09 09:37:25 · 671 阅读 · 0 评论 -
NLP(II):使用NLTK进行数据预处理
在上一节中我们使用原始的正则表达式对语料进行处理,显然,这是费力不讨好的工作。本着“不重复造轮子”的原则,这节开始我们用现成的轮子,调包侠出击。原创 2023-01-30 10:53:17 · 572 阅读 · 0 评论 -
NLP(I): 正则表达式
请注意,以下代码中的breaer_token需要自己去推特申请一个开发者账号,也就是说,你自己写代码时这个token和我的是不一样的,不要直接复制。原创 2022-12-31 23:15:21 · 286 阅读 · 0 评论