自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(424)
  • 收藏
  • 关注

原创 深度学习实战-基于EfficientNet的胸癌图像分类识别模型

本文基于EfficientNet_B0构建了一个胸癌CT图像分类模型,针对腺癌、大细胞癌和鳞状细胞癌三种肺癌亚型及正常组织实现自动分类。实验采用Kaggle胸部CT数据集,通过数据增强(包括模拟CT伪影的椒盐噪声)和迁移学习策略,在验证集上达到89.69%的准确率和0.894的F1分数。模型训练过程采用余弦退火学习率调度,可视化分析显示模型能较好区分不同病变类型,但对腺癌与正常组织的判别存在一定混淆。该研究为肺癌辅助诊断提供了可行的AI解决方案,后续可结合临床特征进一步优化模型性能。

2026-03-11 17:45:05 3347 18

原创 深度学习实战-基于ResNet50V2的手绘数字逻辑门图像识别模型

本项目基于ResNet50V2构建手绘数字逻辑门识别模型,采用Kaggle HDL数据集(1200张8类逻辑门图像)。通过MixUp增强、CLAHE预处理和两阶段训练策略,模型验证准确率达97%。关键技术包括:1) 混合精度训练加速;2) 渐进式解冻微调;3) 测试时增强(TTA)提升稳定性。混淆矩阵显示模型能有效区分各类逻辑门,特别针对手绘线条特征优化。研究为手绘技术图纸识别提供了实用解决方案,代码已开源供参考。

2026-03-06 13:45:50 2788 12

原创 深度学习实战-基于 NASNet的垃圾图像分类识别模型

本文介绍了一个基于NASNet深度学习架构的垃圾分类识别项目。项目使用包含12类15,150张垃圾图像的Kaggle数据集,通过Python和TensorFlow构建分类模型。实验过程包括数据导入、可视化、特征工程、模型构建与训练等步骤。采用迁移学习策略,利用预训练的NASNetLarge作为特征提取器,结合全连接网络和Dropout正则化。最终模型在测试集上达到99.49%的准确率,验证损失仅0.0202,展现出优异的分类性能。该研究为自动化垃圾分拣系统提供了技术支持,具有实际应用价值。

2026-03-02 11:16:43 3196 13

原创 AI 也能写爬虫?基于 Bright Data + Warp CLI 的网页抓取实战

爬虫的成功与否,往往和代码本身关系不大。对于一个真实网站来说,是否能抓到数据,取决于一整套运行环境,包括但不限于:请求来源是否可信(IP、地理位置、信誉)是否存在频率限制和行为检测是否启用了验证码、JS 渲染或动态加载是否对自动化行为进行识别和拦截生成一段逻辑上合理的抓取代码。它无法:为你提供稳定、干净的出口 IP帮你绕过真实世界中的反爬机制在请求被拦截时自动切换策略这也是为什么很多“AI 写爬虫”的示例,只能在非常理想的测试环境下成立,而一旦面对真实网站,就很容易失效。

2026-02-24 11:34:55 11795 18

原创 深度学习实战-基于CNN与Transformer的水稻叶片病害图像识别模型

本研究基于深度学习技术,比较了四种神经网络架构在水稻叶片病害识别中的性能表现。实验使用约19500张标注图像,涵盖7种病害类别。结果表明,Vision Transformer和Swin Transformer模型表现最佳,验证准确率达94.99%;ResNet50和5层CNN分别获得76.19%和72.08%的准确率。Transformer架构凭借其全局注意力机制,在分析病害空间分布模式上展现出明显优势。该研究为构建高效准确的水稻病害自动诊断系统提供了重要参考,对智慧农业发展具有实践意义。

2026-02-21 20:47:21 5429 13

原创 深度学习实战-基于CNN卷积神经网络的脑肿瘤MRI图像识别模型

本项目基于Kaggle脑肿瘤MRI数据集,构建了一个CNN分类模型,实现对四种脑部状态(胶质瘤、健康、脑膜瘤、垂体瘤)的自动识别。通过数据增强、模型优化等技术,最终测试集准确率达78%,其中健康脑部识别最佳(F1-score 0.94),垂体瘤召回率最高(0.99)。研究展示了深度学习在医学影像辅助诊断中的应用潜力,为脑肿瘤自动化筛查提供了可行方案。

2026-02-15 14:49:23 7804 8

原创 深度学习实战-基于CNN与Transformer的人工智能艺术VS人类艺术识别模型

本项目对比了多种深度学习模型在区分AI生成艺术与人类创作艺术上的表现。实验使用了Kaggle数据集,包含AI和人类艺术两类图像。通过训练Vision Transformer、ResNet50、Swin Transformer和5层CNN等模型,结果显示Swin Transformer以88.21%的验证准确率表现最佳,其次是ViT(86.67%)和预训练ResNet50(85.64%)。

2026-02-11 13:47:01 4369 17

原创 分享Python7个爬虫小案例(附源码)

本次的7个python爬虫小案例涉及到了re正则、xpath、beautiful soup、selenium等知识点,非常适合刚入门python爬虫的小伙伴参考学习。

2022-10-22 07:00:00 159335 240

原创 深度学习实战-基于ConvMixer的骨折X光图像分类识别模型

本文基于ConvMixer架构构建了一个骨折X光图像分类模型,使用Kaggle数据集进行训练。实验过程包括数据增强、特征工程、模型构建与训练。结果表明,模型在测试集上达到92.09%准确率,对骨折病例的召回率达98%,具有较高的临床应用价值。ConvMixer架构通过深度可分离卷积和残差连接,在保持性能的同时降低了计算复杂度。该研究为AI辅助骨折诊断提供了可行方案,未来可扩展至更多骨折类型或移动医疗设备部署。完整代码和权重文件已保存。

2026-02-03 11:03:31 4503 24

原创 深度学习实战-基于CNN卷积神经网络的水果新鲜度分类识别模型

本项目基于CNN构建水果新鲜度分类模型,使用Kaggle数据集(500+张苹果、香蕉、草莓图像)进行训练。通过数据增强、模型优化等技术,最终测试准确率达99.41%,损失值0.0337。实验证明CNN能有效识别水果新鲜度,可应用于智能分拣系统,为农业智能化提供技术方案。未来可扩展更多水果种类并优化模型部署。

2026-02-01 15:45:42 5218 19

原创 深度学习实战-基于CNN卷积神经网络的蔬菜图像分类识别模型

本文介绍了一个基于CNN的蔬菜图像分类项目。该项目使用Kaggle的蔬菜图像数据集(包含15类共21000张224×224像素的图片),通过Python和TensorFlow构建了一个五层卷积神经网络模型。实验过程包括数据预处理、特征工程(数据增强)、模型构建与训练,最终在测试集上达到97.23%的准确率。结果表明该轻量级CNN模型能有效识别多种蔬菜,为智慧农业应用提供了可靠的技术方案。项目代码已完整开源,包含数据可视化、模型评估等完整流程。

2026-01-29 16:32:01 5023 14

原创 深度学习实战-基于CNN和VIT的乳腺癌图像分类识别模型

本文基于深度学习方法构建了乳腺癌图像分类模型,对比研究了Vision Transformer(ViT)和卷积神经网络(CNN)在医学影像诊断中的应用效果。项目使用Kaggle提供的乳腺癌数据集(训练集8000张,测试集2000张),通过TensorFlow框架实现了两种模型的构建与训练。ViT模型采用自注意力机制捕捉全局特征,CNN模型则利用局部卷积提取特征。实验结果表明,CNN模型以98.65%的验证准确率显著优于ViT模型的94.75%,表明在当前数据规模下,CNN在医学图像分类任务中仍具优势。研究为深

2026-01-26 10:25:39 4355 13

原创 深度学习实战-基于CNN卷积神经网络的垃圾图像分类识别模型

摘要:本研究开发了一个基于CNN的垃圾图像分类系统,使用Kaggle数据集(10类垃圾,19,762张图片)。采用TensorFlow构建深度卷积神经网络,通过数据增强和类别权重平衡提升模型性能。实验结果显示,该模型在测试集上达到较高准确率,有效实现了电池、生物垃圾、纸板等10类垃圾的自动分类。项目为智能垃圾分类提供了可行的技术方案,具有环保应用价值。完整代码已开源,包含数据预处理、模型训练、评估可视化等完整流程。

2026-01-23 15:56:11 4510 14

原创 基于 Bright Data AI Studio 的自动化采集实战

回顾整个实践过程,可以发现一个非常清晰的结论:在房地产这样高反爬、高价值、长周期的数据场景中,决定成败的往往并不是爬虫技巧本身,而是采集系统是否具备“企业级稳定运行”的基础条件。这也是很多团队在项目初期容易忽略、但在中后期一定会面对的现实问题。

2026-01-20 11:24:09 10803 16

原创 深度学习实战-基于CNN卷积神经网络的稻米图像分类识别模型

基于深度学习的稻米品种智能识别系统研究 摘要:本研究利用卷积神经网络(CNN)构建了稻米品种自动分类模型,旨在解决传统人工分拣效率低、成本高的问题。实验采用Kaggle提供的75,000张稻米图像数据集(包含Arborio等5个品种),通过数据预处理、特征工程和模型构建等步骤,对比评估了三种CNN架构的性能。结果表明,最优模型在测试集上达到98.2%的准确率,显著优于人工分拣效率。研究为智慧农业中的自动化品质检测提供了可行方案,具有实际应用价值。完整代码已在文中展示,包含数据可视化、模型训练和评估的全流程实

2026-01-15 14:26:28 6214 17

原创 深度学习实战-基于ResNet18算法的云层图像分类识别模型

本文提出了一种基于ResNet18的深度学习模型用于云层图像分类识别。研究使用Kaggle提供的961张云图数据集,包含7类云层类型。通过数据预处理、可视化分析和K折交叉验证,模型实现了约89%的验证准确率。实验采用迁移学习策略,冻结ResNet18预训练层,仅微调全连接层,结合AdamW优化器和余弦退火学习率调度。结果表明,该方法能有效识别不同类型云层,为气象观测自动化提供了可行方案。文中详细展示了实验流程、模型训练曲线和分类效果,并提供了完整实现代码。

2026-01-10 15:50:21 7674 20

原创 数据挖掘实战-基于Stacking集成学习的地震警报分类预测模型

本项目利用Stacking集成学习方法构建地震预警分类模型,旨在提升地震早期预警的准确性。使用Kaggle提供的1,300个平衡样本数据集,包含震级、深度等关键特征。通过数据预处理、可视化分析后,采用随机森林、XGBoost和KNN作为基模型,以逻辑回归为元模型进行堆叠融合。实验结果显示,融合模型的准确率达到0.94,优于单一模型性能。研究证实集成学习能有效提高地震警报分类的可靠性,为智能预警系统开发提供了可行方案。项目代码采用Python 3.9实现,完整流程包含数据探索、特征工程、模型训练与评估等环节。

2025-12-29 16:09:48 15239 17

原创 代理界的“音质旗舰”?基于 Bright Data IP代理+爬虫神器的 vivo 舆情监测实战

企业数字舆情监测实战:基于BrightData和DrissionPage构建vivo品牌监测系统 本文详细介绍了如何利用BrightData住宅代理和DrissionPage框架搭建企业级数字舆情监测系统。以vivo品牌为案例,重点分析了小红书作为数据源的价值,以及高质量代理在企业舆情监测中的必要性。文章对比了不同代理方案的优劣,详细演示了从代理配置、爬虫编写到数据采集的全流程。

2025-12-16 08:36:55 15870 18

原创 数据分析案例-宝马车全球销量(2010–2024)数据集可视化分析

本项目基于2010-2024年宝马全球销售数据(50,000条记录),使用Python进行数据分析和可视化。通过直方图、柱状图、饼图等可视化手段,揭示了价格分布(均值和中位数)、地区销量、热门车型TOP10、燃料类型占比(汽油60.5%)、年度销量趋势、发动机排量分布(均值2.5L)、变速箱类型(自动挡占优)、地区均价差异、颜色偏好(黑色最受欢迎)以及价格年度变化等关键发现。

2025-12-05 16:04:24 9118 31

原创 数据挖掘实战-基于CatBoost算法的医疗保险费用预测模型

本文介绍了基于Python的医疗保险费用预测分析项目。项目使用Kaggle提供的1338名个人医疗保险数据集,包含年龄、性别、BMI、子女数量、吸烟状况等特征。通过数据预处理、可视化分析发现:费用与年龄正相关,吸烟者费用高出近3倍,东南地区费用最高。采用CatBoost等机器学习模型进行预测,最终CatBoost模型表现最佳(R²=0.89)。项目完整展示了从数据探索到模型构建的流程,为医疗保险费用预测提供了参考方案。

2025-12-02 15:05:53 7859 21

原创 别再让AI“营养不良”!手把手教你用Bright Data MCP实时“喂活”大模型

摘要:本文探讨了AI开发中面临的数据获取难题,提出了BrightData MCP服务器作为解决方案。文章分析了自建爬虫的三大痛点(效率低、质量差、合规风险),介绍了MCP协议如何通过标准化数据接口实现AI与外部数据的无缝对接。通过Python代码示例展示了如何集成BrightData MCP与DeepSeek API构建竞品价格监控系统,验证了该方案在企业级应用中的可靠性和扩展性。最后展望了"数据即插件"的未来趋势,并提供了BrightData的免费试用福利。

2025-11-25 10:30:00 5602 7

原创 深度学习实战-基于ResNet50的面部情绪识别模型

本文介绍了一个基于ResNet50的面部情绪识别项目。项目使用Kaggle包含7种情绪类别的数据集,通过Python和TensorFlow构建深度学习模型。实验过程包括数据导入、可视化、模型构建(采用ResNet50预训练模型+迁移学习)、训练和评估等步骤。结果显示模型能有效识别愤怒、厌恶、恐惧、快乐、中性、悲伤和惊讶等面部表情。该项目展示了深度学习在情感计算中的应用价值,为心理健康评估、智能交互等领域提供了技术参考。完整代码已开源,包含数据预处理、模型训练和性能评估等完整流程。

2025-11-20 13:19:05 6311 23

原创 深度学习实战-基于Vision Transformer的脑肿瘤MRI图像识别

本研究探索了基于Vision Transformer(ViT)的脑肿瘤MRI图像自动检测方法。项目采用Python 3.9和PyTorch框架,构建了一个端到端的智能诊断系统。通过分析包含肿瘤和非肿瘤类别的MRI数据集,使用ViT_base_patch16_224模型进行训练,在15个epoch后达到0.971的AUC值。实验过程包括数据预处理、模型训练与评估,结果显示ViT能有效捕捉肿瘤特征,注意力可视化证实了模型关注区域与肿瘤位置的相关性。

2025-11-10 19:38:32 4027 31

原创 解决反爬难题:Bright Data爬虫API的无痛爬虫实践

本文介绍了BrightData爬虫API如何解决传统数据采集中的痛点问题。通过全局动态IP基础设施、浏览器自动化引擎和智能解析技术,该API可自动处理反爬机制、JS渲染等复杂场景,将采集过程简化为API调用。文章通过CSDN热榜采集案例,展示了仅需30行Python代码即可获取结构化数据,无需关心IP轮换、页面解析等底层细节。相比可视化采集工具,BrightData更适合开发者嵌入自动化系统,尤其适用于电商监控、舆情分析等场景。文末提供了免费试用福利,帮助读者体验这一高效数据采集解决方案。

2025-10-26 22:23:41 9613 31

原创 文本分类预训练模型之RoBERTa-Chinese-Med-Inquiry-Intention-Recognition-base

RoBERTa-Chinese-Med-Inquiry-Intention-Recognition-base 是由 HZhun 团队基于 RoBERTa 架构微调的垂直领域意图识别模型,专门用于区分医学对话场景中的用户意图——判断输入文本属于 问诊需求 还是 闲聊内容。该模型依托高质量的中文医学对话数据集(包含开源数据与中科内部数据),通过 6000 条标注样本(平衡正负样例)训练,在测试集上取得了 99% 准确率 和 98% F1 分数 的优异表现,展现出极强的意图判别能力。

2025-10-20 13:03:57 8169 35

原创 已解决requests.exceptions.SSLError: HTTPSConnectionPool(host=‘blog.csdn.net‘, port

摘要:Python爬虫运行报错,经排查是因requests库版本过高导致不兼容问题。解决方案有两种:1)降级安装2.28版本(pip3 install "requests==2.28"),避免2.32+版本的SSL证书变更问题;2)参考官方文档进行版本迁移。建议开发者根据项目需求选择合适的解决方式。(94字)

2025-10-19 19:58:29 5219 12

原创 基于 Rokid CXR-M SDK 构建 AR 远程专家协作系统:从零实现眼镜端自定义 UI 与实时交互

本文详细介绍了基于Rokid CXR-MSDK的AR远程专家协作系统设计与实现。系统通过手机App与Rokid智能眼镜协同工作,实现第一视角画面共享、远程标注指导和实时UI渲染。重点解析了CustomView功能,包括JSON UI设计、图标处理、动态更新和事件监听等关键技术,并提供了完整的代码示例。该系统适用于工业巡检、医疗会诊等专业场景,解决了传统远程协作的信息不对称问题。文章还提出了性能优化建议,并探讨了在医疗、仓储等领域的扩展应用前景。

2025-10-13 21:06:55 8865 26

原创 “月饼”与“月球”的对话:一场AI视频引发的百年中秋想象

本文基于人民日报抖音AI中秋视频的300条评论数据,通过Python技术分析大众对"月球中秋"的集体想象。研究采用爬虫采集数据,使用pandas、jieba和pyecharts等工具进行数据处理、词频统计和可视化。

2025-10-07 17:06:52 9360 36

原创 情感分析预训练模型之distilbert-base-multilingual-cased-sentiments-student

distilbert-base-multilingual-cased-sentiments-student 是由 lxyuan 团队基于 DistilBERT 架构优化的多语言情感分析模型,支持 三分类(Negative 悲观 / Neutral 中性 / Positive 乐观),适用于全球市场的文本情绪分析。

2025-09-30 16:05:08 7383 31

原创 技术赋能求职——基于Bright Data与DeepSeek构建LinkedInAI助手,实现职位智能匹配与打分

本文介绍了一个基于BrightData和DeepSeek构建的LinkedIn AI求职助手系统。该系统通过BrightData合规采集LinkedIn职位数据,利用DeepSeek大模型对职位与用户简历进行智能匹配分析,生成0-100分的匹配度评分及个性化建议。文章详细讲解了技术选型、核心工具特点、系统架构设计和完整实现代码,包括数据采集、AI分析、结果导出等关键模块。该助手能有效解决求职过程中的信息过载、匹配度量化等痛点,提升求职效率和精准度。项目采用Python实现,结合Pydantic数据验证,支持

2025-09-24 09:26:46 10879 26

原创 数据分析案例-2025年数据科学、人工智能和机器学习职位薪资数据可视化

本文分析了2025年全球数据科学领域薪资趋势,基于Kaggle数据集(66,063条记录,11个变量)。通过Python可视化工具发现: 薪资呈右偏分布,高管薪资显著高于其他级别; 美国、瑞士、以色列薪资最高; 远程工作平均薪资更高,2020年后远程比例显著上升; 大公司薪资优势明显,尤其高管级别; 机器学习工程师和研究科学家薪资高于数据分析师。 分析揭示了经验水平、地理位置和公司规模是薪资主要决定因素,为从业者提供了职业发展和薪酬谈判的参考依据。

2025-09-11 19:30:09 4675 38

原创 数据挖掘实战-基于随机森林算法的糖尿病分类预测模型

本研究基于糖尿病分类预测数据集,采用随机森林等机器学习算法构建多分类预测模型。数据集包含826条记录,涉及年龄、BMI、血糖等临床指标。通过数据预处理、可视化分析后,比较了逻辑回归、决策树等6种算法,其中随机森林表现最佳(准确率98.11%)。实验展示了特征重要性排序(HbA1c、BMI等关键指标),并提供了完整的Python实现代码,包括数据探索、模型构建与评估流程。该项目为糖尿病早期筛查提供了有效的机器学习解决方案。

2025-09-01 09:18:09 4919 35

原创 情感分析预训练模型之c2-roberta-base-finetuned-dianping-chinese

 c2-roberta-base-finetuned-dianping-chinese 是由 liam168 团队基于 RoBERTa 架构微调的中文情感分析二分类模型,适用于判断文本情绪倾向。该模型在 410M 参数量级下表现优秀,专门针对中文语境优化,能够准确区分 积极(Positive) 和 消极(Negative) 两种情感,适用于电商评论、社交媒体分析、客户反馈分类等场景。该模型的核心优势在于其训练数据来源于 中文对话情绪语料,使其在理解口语化表达、网络用语及短文本情感方面表现良好。

2025-08-23 08:58:40 8794 37

原创 数据挖掘实战-基于GBDT梯度提升决策树算法的肥胖预测模型

本实验数据集来源于Kaggle,该数据集有助于根据饮食习惯、家族史和身体状况估计肥胖水平。它包括来自墨西哥、秘鲁和哥伦比亚的个人的数据,涵盖 16 种生活方式和健康相关特征,共有 2111 条记录。标签对肥胖水平进行分类,范围从体重过轻到不同的肥胖类型。了解导致肥胖的生活方式因素有助于早期干预、健康建议和医疗保健中的机器学习应用。列说明:性别 — 男或女。年龄 — 个人年龄(岁)。身高 — 身高(米)。体重 — 体重(公斤)。

2025-08-16 09:21:00 5873 37

原创 情感分析预训练模型之multilingual-sentiment-analysis

multilingual-sentiment-analysis是由tabularisai团队基于distilbert/distilbert-base-multilingual-cased模型做的一个多语言情感分析模型,发布于2024年12月,该模型支持英语和中文等多种语言。该模型将情感分为了五个等级,即 (Very Negative, Negative, Neutral, Positive, Very Positive)主要可用于 :社交媒体分析客户反馈分析商品评论分类品牌监控市场调研

2025-07-26 10:55:08 12750 32

原创 数据挖掘实战-基于逻辑回归算法的结直肠癌生存预测模型

本实验数据集来源于Kaggle,原始数据集共有167497条数据,28个变量。该数据集包含来自不同国家的结直肠癌病例的真实信息。其中包括患者人口统计、生活方式风险、病史、癌症分期、治疗类型、生存机会和医疗费用。该数据集跟踪结直肠癌发病率、死亡率和预防的全球趋势。使用该数据集可建立癌症预测、生存分析、医疗保健成本估算和疾病风险因素的模型。数据集结构每一行代表一个个案,列包括:患者 ID(唯一标识符)国家/地区(基于发病率分布)年龄(遵循结直肠癌年龄趋势)

2025-07-19 10:12:14 11274 33

原创 7个故事,学会人工智能时代必懂的算法常识

在近期出版的新书《算法往事:关于计算的那些事》中,你可以找到更多类似的案例。算法是解决特定问题的一系列步骤,是计算机程序的基础。在数字化和智能化时代,“算法”一词频繁出现在公众视野,基于算法的技术已经深深融入了我们的日常生活,改变着我们的生活方式。比如,你想在一个城市游玩多个景点,通过查找地图软件(它们背后运用了复杂的算法)或者自己简单地规划,尽量减少在景点之间的交通时间,从而有更多的时间游玩。在购物时,你预算有限,可以运用类似贪心算法的思想,优先选择性价比最高的物品,从而买到尽可能多的物品。

2025-07-14 11:30:54 4165 26

原创 【论文复现】在线健康社区重大慢病患者负面评论倾向的关键影响因素分析

1]王辉,王晓玉,李卫东,等.在线健康社区重大慢病患者负面评论倾向的关键影响因素分析[J].情报科学,2024,42(06):12-20+28.本次论文技术复现只是做了部分复现,如爬虫、情感分析和BERTopic模型分析。复现的内容并不完整!如需源码或数据集请关注公主号【派森小木屋】!

2025-07-12 10:36:02 13957 26

原创 数据挖掘实战-基于机器学习算法的空气质量预测模型

本实验数据集来源于Kaggle,该数据集重点关注各地区的空气质量评估。数据集包含5000个样本,并捕获了影响污染水平的关键环境和人口因素。Temperature(°C):该地区的平均温度。Humidity(%):该地区记录的相对湿度。PM2.5浓度(µg/m³):细颗粒物水平。PM10浓度(µg/m³):粗颗粒物水平。NO2浓度(ppb):二氧化氮水平。SO2浓度(ppb):二氧化硫水平。CO浓度(ppm):一氧化碳水平。

2025-07-07 17:06:34 9318 32

原创 Labubu为什么火?基于多平台数据的潮玩IP受众与舆情分析

本研究分析抖音、B站和小红书平台关于潮玩IP“Labubu”的用户评论数据(共7069条),探讨其火爆原因及舆论特征。通过情感分析和词频统计发现,评论呈现两极分化:极端负面评价(占比49.5%)集中批评“泡沫经济”“智商税”等,反映对盲盒商业模式的质疑;极端正面评价(11.3%)则强调“可爱”“文化输出”等情感价值。地域分布显示,广东、江浙沪用户讨论最活跃,海外以美日为主。词云分析揭示核心争议围绕“审美差异”“资本炒作”展开,折射Z世代对潮玩文化的认知割裂。

2025-07-03 10:43:40 15549 35

京东vivo手机订单数据集(630197条29个字段).rar

该数据集为京东平台中vivo手机的销售订单数据集,共有630197条数据,29个字段变量,字段有['订单时间', '支付时间', '出库时间', '完成时间', '手机型号', '商品名称', '订单状态', '订单状态_映射','订单类型', '订单种类', '售后换新订单标志', '售后换新订单标志_映射', '售后申请时间', '售后完成时间', '处理结果','处理结果_映射', '销量', '销额', '京东价', '优惠前金额', '优惠前单价', '优惠后单价', '是否plus会员', '是否学生', '收货省份', '收货城市', '收货区县', '运费', '免运费券金额']

2025-03-23

豆瓣电影数据集(11406条24个字段).rar

该数据集为豆瓣网中的电影数据集,共有11406条数据,24个字段变量,字段有['电影名称', '评分', '评价人数', '5星人数', '4星人数', '3星人数', '2星人数', '1星人数', '短评数量', '影评数量', '类型', '导演', '编剧', '主演', '制片国家/地区', '语言', '上映日期', '片长', '豆瓣网址', '官方网址', 'IMDb链接', '宣传海报链接', '剧情简介', '总分(评分×评价人数)']

2025-03-23

java开发岗招聘数据爬取+可视化大屏.rar

java开发岗招聘数据爬取+可视化大屏.rar

2025-03-23

京东商品评论爬虫Python.rar

该爬取可以爬取["商品id", "用户昵称",'IP地址', "评分", "商品尺寸", "商品颜色", "评论时间", "评论内容"]这些字段数据。 在运行代码之前,只需要在代码中修改要爬取的商品ID、要爬取的页数和要爬取评论的类型即可! 因为爬虫具有时效性,在购买该资源之前,请私信联系我代码是否还可以正常运行!

2025-03-23

基于Flask+Bootstrap+机器学习的会计专业毕业生薪资可视化分析系统(10000实验报告+数据集+代码).rar

基于Flask+Bootstrap+机器学习的会计专业毕业生薪资可视化分析系统(10000实验报告+数据集+代码).rar

2025-03-22

基于机器学习的会计专业毕业生薪资预测模型(7000字实验报告+代码+数据集).rar

基于机器学习的会计专业毕业生薪资预测模型(7000字实验报告+代码+数据集).rar

2025-03-22

基于情感分析+网络语义分析+LDA主题分析对大唐不夜城用户评论进行文本分析(数据集+代码).rar

基于情感分析+网络语义分析+LDA主题分析对大唐不夜城用户评论进行文本分析(数据集+代码).rar

2025-03-22

数据分析案例-基于红米和华为手机的用户评论分析(数据集+代码).rar

数据分析案例-基于红米和华为手机的用户评论分析(数据集+代码).rar

2025-03-22

数据挖掘实战-基于RFM模型与K-means聚类算法对超市客户进行细分(数据集+代码).rar

数据挖掘实战-基于RFM模型与K-means聚类算法对超市客户进行细分(数据集+代码).rar

2025-03-22

基于LSTM时间序列模型的香烟销售预测分析(8000字实验报告+代码+数据集).rar

基于LSTM时间序列模型的香烟销售预测分析(8000字实验报告+代码+数据集).rar

2025-03-22

数据挖掘实战-基于随机森林算法的空气质量污染预测模型(数据集+代码).rar

数据挖掘实战-基于随机森林算法的空气质量污染预测模型(数据集+代码).rar

2025-03-22

数据挖掘实战-基于随机森林算法的交通事故预测模型(数据集+代码).rar

数据挖掘实战-基于随机森林算法的交通事故预测模型(数据集+代码).rar

2025-03-22

数据挖掘实战-基于随机森林模型的零售店库存可视化与预测(数据集+代码).rar

数据挖掘实战-基于随机森林模型的零售店库存可视化与预测(数据集+代码).rar

2025-03-22

数据分析案例-青少年心脏病发作数据集可视化分析(数据集+代码).rar

数据分析案例-青少年心脏病发作数据集可视化分析(数据集+代码).rar

2025-03-22

数据分析案例-本科毕业后就读MBA的决定数据集可视化分析(数据集+代码).rar

数据分析案例-本科毕业后就读MBA的决定数据集可视化分析(数据集+代码).rar

2025-03-22

数据分析案例-ChatGPT用户评论数据集可视化分析(数据集+代码).rar

数据分析案例-ChatGPT用户评论数据集可视化分析(数据集+代码).rar

2025-03-22

基于LDA主题分析+文本分析的医学论文分类研究(5000字实验报告+数据集+代码).rar

基于LDA主题分析+文本分析的医学论文分类研究(5000字实验报告+数据集+代码).rar

2025-03-22

数据挖掘实战-基于随机森林算法的美国加州山火预测模型(数据集+代码).rar

数据挖掘实战-基于随机森林算法的美国加州山火预测模型(数据集+代码).rar

2025-03-22

数据挖掘实战-基于机器学习算法的空气质量预测模型(数据集+代码).rar

数据挖掘实战-基于机器学习算法的空气质量预测模型(数据集+代码).rar

2025-03-22

数据分析案例-健身房会员锻炼数据集可视化分析(数据集+代码).rar

数据分析案例-健身房会员锻炼数据集可视化分析(数据集+代码).rar

2025-03-22

新闻分类数据集.zip

这些数据是从 inshorts 新闻网页应用收集的。该数据集包含 3 列,分别命名为news_headline、news_article和news_category。它还包含来自 7 个不同类别的新闻,例如科技sports、politics、entertainment、world和。automobilescience

2026-01-23

杭州二手房数据3w+条.zip

杭州二手房数据,我爱我家平台 甄选:表明房源是否通过了某种质量甄选。即“是”或“否”。 介绍:这可能是对房源的简要描述或标题,包含了一些关键信息,如地点、房屋特点等。 户型:描述房屋的结构,如“3室2厅”等。一个重要的分类特征,影响房屋的功能和适用性。 平方:房屋的面积,通常以平方米为单位。这是一个关键的数值特征,直接影响房价。 特征:房屋的特征,如“朝南”、“朝北”等。标准化可以影响房屋的采光和通风,是房产价值的一个楼层。 楼层:位于建筑的哪一层。楼层高低可能影响房屋的具体断层、噪音水平等。 装修:房屋装修的情况,如“精装修”、“简装修”等。装修和风格水平可能影响房源的吸引力。 位置:房屋的具体断层,可能包括街道、社区、是否近地铁等。 关注量和看房量:表明房源的受欢迎程度或潜在买家的兴趣。 发布时间:房源信息发布到平台上的时间。 价格和每平方米价格:房源的销售价格和每平方米的价格。 备注:可能包含其他重要信息、满五年、近地铁、随时看房。

2026-01-23

Telegram 垃圾邮件或正常邮寄数据集.zip

20,000 条信息可分为垃圾邮件和非垃圾邮件(70-30%)判断短信是垃圾邮件还是正常短信。

2026-01-23

垃圾邮件数据集.zip

这是一个数据集,其中包含垃圾邮件信息,并且已经过分类。这是一个包含电子邮件文本消息的数据集,这些消息被分为垃圾邮件和非垃圾邮件。数据集包含两列,分别为“ text ”和“ spam ”,其中1表示邮件为垃圾邮件,0表示邮件为非垃圾邮件。该数据集可以帮助您训练分类模型,本质上属于监督学习。

2026-01-23

用于谣言检测的 PHEME 数据集.zip

用于谣言检测和真假分类的 PHEME 数据集:该数据集包含一系列在突发新闻期间发布的 Twitter 谣言和非谣言。它涵盖了与 9 个事件相关的谣言。我们已将 PHEME 数据集转换为 CSV 格式,并重点关注了德国之翼坠机事件和《查理周刊》事件这两个事件。该数据集包含超过 60,000 行数据。

2026-01-23

钓鱼网址数据集(合法&非合法).zip

该URL数据集包含构建的特征,这些特征用于论文“PhishStorm:使用流分析检测网络钓鱼”中的评估,该论文发表于IEEE TNSM。 该数据集包含96,018个URL:48,009个合法URL和48,009个钓鱼U​​RL。这是一个 CSV 文件,其中“domain”列为每个条目(实际上是一个 URL)提供了一个唯一标识符。“label”列提供了域名条目的状态,0 表示合法,1 表示钓鱼。数据量9W+

2026-01-23

Instagram媒体元数据和互动指标数据集.zip

背景: 本数据集深入剖析了 Instagram 的内容生态系统,捕捉了高互动公众人物(例如 Keke Palmer 和 Jimmy Fallon)帖子的丰富元数据。在社交媒体营销和网红文化盛行的时代,了解帖子的技术属性和互动驱动因素对于研究人员、营销人员和开发人员至关重要。 内容: 该数据集包含一个 CSV 文件,其中包含 84 列详细信息。它涵盖了各种媒体格式,包括 Reels(短片)和轮播视频。每条记录都包含帖子表现的快照以及 Instagram 用于投放内容的底层技术参数。 关键数据类别: 1-互动指标:点赞数 (like_count)、评论数 (comment_count) 和用户互动标记。 内容元数据:标题、帖子时间戳 (taken_at)、媒体类型 (product_type) 和尺寸。 用户信息:关于帖子所有者的详细嵌套数据,包括验证状态和个人资料详情。 4-技术细节:视频版本网址、DASH清单链接、图像版本和裁剪信息。 合作与赞助:付费合作关系指标(is_paid_partnership)、赞助商标签和联合制作人。 灵感与应用案例 此数据集非常适合以下用途: 探索性数据分析 (EDA):发现帖子发布时间和互动模式之间的关联。 自然语言处理 (NLP):分析帖子标题中的话题标签和情感倾向,以预测其“病毒式传播”潜力。 计算机视觉研究:使用提供的图像和视频 URL 进行图像分类或目标检测。 影响力分析:研究付费合作和共同创作如何影响点赞评论比

2026-01-23

Reddit用户评论-机器人vs人类.zip

互联网正在“消亡”吗?到2026年,机器人流量将达到历史新高,有报告显示,近51%的网络活动并非人类所为。该数据集提供了Reddit评论元数据的详细分析,旨在帮助研究人员构建检测模型。 此数据集非常适合用于: 自然语言处理研究人员正在寻找语言学上的“机器人特征”。 社会学家研究网络社区信任的瓦解。 数据科学家构建二元分类模型(机器人 vs. 人类)。

2026-01-23

关于Twitter (X)的用户评论

该数据集包含X(原名Twitter )的用户评论(软件包名称com.twitter.android:)来源于谷歌商店。它涵盖了一个具有重要历史意义的时期,记录了在埃隆·马斯克 (Elon Musk) 的领导下更名为“X”之前、期间和之后的用户情绪。 该数据集包含2022 年 7 月至 2025 年 12 月期间收集的10 万条评论。独特价值:该数据集记录了科技史上最具争议的品牌重塑事件之一 评分分布: 五星好评:约38.6% 一星:约占 45.5%(负面情绪占主导地位) 观察:大量 1 星评价表达了对更名(“Balikin burung biru”)、激进的盈利模式(X Premium)和机器人入侵的不满。 用例 品牌重塑情感分析:比较更名为“X”前后的情感变化。 仇恨言论和有害内容: X 以内容未经审核而闻名;使用此数据集检测评论中的有害内容。 机器人检测关键词:分析真实用户投诉“机器人”、“垃圾邮件”或“加密货币诈骗”的频率。

2026-01-23

全球 Instagram 影响者排名数据集.zip

本数据集收录了全球顶尖的Instagram网红和名人。它包含国家/地区、平均点赞数、帖子总数、粉丝数、互动率和全球排名等重要参数。该数据集有助于分析Instagram用户互动、网红表现和网络人气。数据科学项目、数字营销策略、网红营销研究和社交媒体分析均可从中受益。研究人员、学生和营销人员可利用此数据集来研究网络名人的发展趋势,对比网红和名人,并了解粉丝数量与互动率之间的关系。

2026-01-23

Labubu为什么火?基于多平台数据的潮玩IP受众与舆情分析(数据集+源码).rar

Labubu为什么火?基于多平台数据的潮玩IP受众与舆情分析(数据集+源码).rar

2025-07-11

论文复现基于文本挖掘的互联网医疗平台用户画像模型构建.rar

论文复现基于文本挖掘的互联网医疗平台用户画像模型构建.rar

2025-07-02

基于情感分析+网络语义分析对泾阳茯茶用户评论进行文本分析(实验报告+数据集+代码).rar

基于情感分析+网络语义分析对泾阳茯茶用户评论进行文本分析(实验报告+数据集+代码).rar

2025-07-02

基于Python的东方财富网股票数据可视化分析系统.rar

基于Python的东方财富网股票数据可视化分析系统.rar

2025-04-26

国家社科基金项目数据集10w+条(1994-2024年).rar

该数据集包括了1994年到2024年中标的国家社科基金项目,10w+条数据

2025-04-04

大数据分析案例-基于随机森林算法探究电商网站推销商品的影响因素.rar

大数据分析案例-基于随机森林算法探究电商网站推销商品的影响因素.rar

2025-03-29

豆瓣影评爬虫并词云图可视化.rar

该爬虫代码可以爬取豆瓣网中的电影影评,然后画出词云图可视化,因平台限制,每个电影最多爬取400条影评。 使用代码前,需要更换自己登录的cookie 因爬虫代码具有时效性,所以在购买资源之前私信联系我确定该代码是否还可用!

2025-03-24

基于LSTM的南京市天气预测与分析(4000字实验报告+PPT+代码+数据集).rar

天气预测是科学领域中的一个重要课题,天气预测不仅能为农业生产提供可靠的指导,还能为交通、能源等领域的调度和规划提供参考依据。特别是在气候变化愈发明显的今天,准确的天气预报能够帮助居民企业更好地应对突发天气,减少自然灾害对生产和生活的影响。 随着机器学习和深度学习的飞速发展,传统的天气预测方法逐渐被以人工智能为核心的新技术所取代。其中,长短期记忆网络(LSTM)作为一种擅长处理时间序列数据的模型,在天气预测中发挥了显著作用。本次研究中,爬取了基于南京市过去三个月的天气数据,用pytorch框架构建了一个LSTM模型,并利用该模型预测10月份南京一个月的风力和平均气温变化趋势。

2025-03-23

微博热搜爬虫python.rar

该代码用来获取微博中的热搜数据,直接运行代码即可,每次爬取50条

2025-03-23

全国汽油价格数据集.rar

该数据集包含了2023年-2025年3月的全国汽油价格数据集,数据格式为json

2025-03-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除