自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 《红楼梦》书籍及弹幕的文本挖掘与可视化(基于Python)

本文同时分析程乙本《红楼梦》文档与87版红楼梦电视剧弹幕语料。对于《红楼梦》书籍处理方向有二,一是对各章节之间的关系分析,二是对不同角色之间的关系分析。对于电视剧,本文利用爬虫方法,爬取腾讯视频87版红楼梦电视剧36集的699046条全部弹幕作为语料,运用SnowNLP 及构建情感词典方法,分析观众对不同角色的情感偏向。

2024-09-05 17:12:24 1709

原创 人民网新闻抓取Python(内附完整代码)

本文在遵守Robots友好爬虫协议的前提下,在原始新闻列表页面向Web服务器发送携带cookies的请求,提取出子页面超链接,并存储成URL列表。遍历列表,通过selenium模拟浏览器技术,获得每一个子页面的网页内容,而后使用正则表达式、BeautifulSoup库的css选择器,find,findall,select等查找提取元素方法,获取子页面的新闻标题,新闻时间,报道来源,内容,责任编辑,如果页面存在图片或视频元素,提取其超链接后再次发送请求,下载网页内嵌多媒体

2024-09-04 23:52:03 2608

原创 使用tableau进行奥运数据可视化分析

随着2024巴黎奥运会的完美闭幕,大家对于体育赛事的热情也被点燃,这是一个利用tableau软件实现的关于奥运会的可视化分析。

2024-09-03 14:57:30 397

原创 BERTopic安装-hdbscan相关报错(已解决)

没特殊指定conda和Python版本时下载BERTopic各种报错。

2024-05-24 23:25:42 781

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除