![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
文本分析
文章平均质量分 75
Petersburg
这个作者很懒,什么都没留下…
展开
-
【Bag of Words BoW】词袋模型
BoW概览处理对象:最开始的词袋模型,正如其名所示是为了处理文字相关的问题,特别的在文本分类进而在文本检索方面有着良好的应用。在后面的发展中,词袋模型逐渐将分类依据抽象出来从而被泛化应用到诸如图像分类与表示等方面。处理特点:对于一句话而言,BoW并不关心这句话的语法构成,或者说是单词的排列顺序,而是关心在这句话中每个词汇各出现了多少次。比如My friend Jack like Jack Ma.这里面出现了:my,friend,Jack,like,Ma 这些词汇它们共出现了:1,1,2,1,1 次原创 2022-02-28 23:34:05 · 411 阅读 · 0 评论 -
【射雕英雄传】文本分析初步 第二弹【gensim word2vec lda roberta】
大数据分析的期末大作业之二词向量 主题分析 情感分析 词云绘制原创 2022-01-01 18:54:12 · 973 阅读 · 0 评论 -
【射雕英雄传】文本分析初步(姓名,丹药,秘籍,招式)[scrapy, jieba, matplotlib]
大三上学期选了学校高瓴开的大数据分析导论,最后的final分为两个部分,本文讲述第一部分的完成步骤。大致可以描述为:爬取文章,从本文本构造user_dict,利用jieba分词,分门别类统计词频并绘图。在此做个小预告,final第二部分是绘制词云、主题抽取、利用word_embedding进行相关性分析以及自主探索,后面做完作业再更新,放在一个主题下方便查找。文章目录内容的爬取user dict的构造user dict概述核心思想【以姓名提取为例】丹药与秘籍提取地点提取绘图内容的爬取感觉爬虫这个玩意原创 2021-12-17 16:18:22 · 1407 阅读 · 0 评论