文本分析实战
Lady Stark数据工作室
这个作者很懒,什么都没留下…
展开
-
文本分析苏轼的词以及苏轼的人生轨迹地图
文章目录一、宋词语料来源二、分析东坡词2.1 苏轼最喜欢的季节2.2 苏轼最喜欢的颜色2.3 苏轼最喜欢的植物3.4 苏轼最喜欢的动物3.5 琴棋书画还是柴米油盐4.6 苏轼的人生轨迹最近热播剧《清平乐》可以说是颇有争议,无论好坏,背诵并默写天团着实给我们带来了一波回忆杀。于是我打起了分析宋词的主意。开始拿苏东坡下手。一、宋词语料来源本来想学学爬取中华诗词网的数据,但是发现只能看10页,后面的内容必须要在APP上观看,我觉得有些麻烦就放弃了。于是我找到了一个 开源的诗词库。开源诗词库里面原创 2020-05-21 18:38:45 · 4135 阅读 · 1 评论 -
关于《后浪》的B站弹幕分析总结(五)——Python实现情感分析、情绪分析以及可视化
这篇文章语料来源于B站《后浪》弹幕,工具为python,着重讲述情感分析,顺便讲一下情绪分析。原创 2020-05-14 17:54:38 · 6558 阅读 · 1 评论 -
关于《后浪》的B站弹幕分析总结(四)——Python实现LDA内容主题挖掘及主题可视化
目录一、使用sklearn里面的LatentDirichletAllocation做主题挖掘二、使用gensim的ldamodel做主题挖掘三、如何将结果可视化四、如何确定主题数4.1 观察可视化图形4.2 使用模型检验指标判断B站视频《[数说弹幕]我不小心看了后浪弹幕》关于《后浪》的B站弹幕分析总结(一)——爬取B站视频的上万条弹幕的方法关于《后浪》的B站弹幕分析总结(二)——分词常用的词典、颜文字处理以及格式统一关于《后浪》的B站弹幕分析总结(三)——怎么制作好看的交互式词云这一步的实现是原创 2020-05-14 13:16:56 · 5352 阅读 · 2 评论 -
关于《后浪》的B站弹幕分析总结(三)——怎么制作好看的交互式词云
本篇借助分析B站弹幕,着重讲解词云制作的几个方法。原创 2020-05-13 17:17:56 · 2044 阅读 · 1 评论 -
关于《后浪》的B站弹幕分析总结(二)——jieba分词、常用词典、颜文字处理以及字符格式统一
目录关于《后浪》的B站弹幕分析总结(二)——分词常用的词典、颜文字处理以及格式统一一、你需要知道的几个常用词典- **停用词典(停用词,颜文字,emoji)**- 否定词典,程度副词词典- 情感极性词典,多维情感词典二、统一字符、统一大小写、统一繁简体- 统一字符- 统一大小写- 统一繁简体三、添加无法识别的词和字典中没有的新词四、代码实现分词关于《后浪》的B站弹幕分析总结(二)——分词常用的词典、颜文字处理以及格式统一与本文相关内容链接:B站视频《[数说弹幕]我不小心看了后浪弹幕》关于《后浪》的原创 2020-05-12 18:50:01 · 3688 阅读 · 3 评论 -
关于《后浪》的B站弹幕分析总结(一)——爬取B站视频的上万条弹幕的方法
目录关于《后浪》的B站弹幕分析总结(一)——爬取B站视频的上万条弹幕的方法一、先尝试爬取1000条1 .1 查找弹幕所在地址1.2 代码实现二、1000条不够我想要更多怎么办?三、B站弹幕文件里的其他信息有用吗?关于《后浪》的B站弹幕分析总结(一)——爬取B站视频的上万条弹幕的方法注意:这是一篇技术类文章前几天我做了B站《后浪》视频的弹幕分析,感兴趣的朋友可以看一下《[数说弹幕]我不小心看了后浪弹幕》现在我将在制作这个视频背后用到的文本分析相关的关键技术点做一个总结,因为涉及知识点太多,有些点会一笔原创 2020-05-12 12:38:04 · 5537 阅读 · 4 评论