- 博客(4)
- 收藏
- 关注
原创 《红楼梦》书籍及弹幕的文本挖掘与可视化(基于Python)
本文同时分析程乙本《红楼梦》文档与87版红楼梦电视剧弹幕语料。对于《红楼梦》书籍处理方向有二,一是对各章节之间的关系分析,二是对不同角色之间的关系分析。对于电视剧,本文利用爬虫方法,爬取腾讯视频87版红楼梦电视剧36集的699046条全部弹幕作为语料,运用SnowNLP 及构建情感词典方法,分析观众对不同角色的情感偏向。
2024-09-05 17:12:24 1709
原创 人民网新闻抓取Python(内附完整代码)
本文在遵守Robots友好爬虫协议的前提下,在原始新闻列表页面向Web服务器发送携带cookies的请求,提取出子页面超链接,并存储成URL列表。遍历列表,通过selenium模拟浏览器技术,获得每一个子页面的网页内容,而后使用正则表达式、BeautifulSoup库的css选择器,find,findall,select等查找提取元素方法,获取子页面的新闻标题,新闻时间,报道来源,内容,责任编辑,如果页面存在图片或视频元素,提取其超链接后再次发送请求,下载网页内嵌多媒体
2024-09-04 23:52:03 2608
原创 使用tableau进行奥运数据可视化分析
随着2024巴黎奥运会的完美闭幕,大家对于体育赛事的热情也被点燃,这是一个利用tableau软件实现的关于奥运会的可视化分析。
2024-09-03 14:57:30 397
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人