艾派森-CSDN博客

原创 Web Scraper API vs 自建爬虫：一次真实对比测试，结果让人震惊

本文将分别采用 DIY 自建爬虫和 Bright Data Web Scraper API 两种方案，对同一个 Amazon 商品页面进行采集，并从开发成本、代码复杂度、数据完整性、运行稳定性以及后期维护成本等多个维度进行全面比较，看看真正拉开两者差距的，究竟是代码能力，还是那些容易被忽视的"隐形成本"。

2026-07-25 14:12:40 5796 14

原创深度学习实战-基于CNN+VGG16融合的水稻图像分类识别模型

本项目基于深度学习技术，针对水稻品种自动识别问题展开研究。实验使用Kaggle提供的75,000张水稻图像数据集，包含Arborio、Basmati等5个品种。研究首先构建了自定义CNN基准模型，测试准确率达99.67%；随后引入VGG16预训练网络进行迁移学习，通过冻结骨干网络和微调分类头，准确率提升至99.92%。实验采用数据增强、批量归一化等技术优化模型性能，并结合混淆矩阵和收敛曲线进行可视化分析。

2026-07-21 07:53:26 5936 25

原创深度学习实战-基于InceptionV3的香蕉叶斑病图像分类识别模型

本文基于InceptionV3架构构建了一个香蕉叶斑病识别模型。实验使用Kaggle提供的香蕉叶斑病数据集，包含1600张增强后的224x224像素图像，涵盖Sigatoka、Cordana和Pestalotiopsis三种主要病害。通过迁移学习策略，冻结预训练权重，仅训练顶层分类器，实现了98.91%的训练准确率。验证集准确率达76.45%，表明模型具备一定的泛化能力。实验完整展示了从数据预处理、模型构建到性能评估的全流程，为农业病害智能识别提供了可行方案。源代码包含了数据增强、模型训练和评估的完整实现。

2026-07-17 08:26:00 4380 18

原创深度学习实战-基于ResNet50的葡萄叶图像分类识别模型

本研究基于ResNet50深度学习模型，实现了对5种葡萄叶片的自动识别分类。实验采用Kaggle葡萄叶图像数据集，通过数据增强、迁移学习和微调策略优化模型性能。结果显示，模型在测试集上达到81%准确率，其中Dimnit品种识别率达100%，验证了计算机视觉在农业品种鉴定中的实用价值。研究为智慧果园管理提供了可行的技术方案，未来可进一步优化模型在复杂自然环境下的鲁棒性。

2026-07-13 19:43:00 2695 18

原创分享Python7个爬虫小案例（附源码）

本次的7个python爬虫小案例涉及到了re正则、xpath、beautiful soup、selenium等知识点，非常适合刚入门python爬虫的小伙伴参考学习。

2022-10-22 07:00:00 159612 241

原创深度学习实战-基于BiT-M ResNet50的快餐图像分类识别模型

本项目基于Kaggle快餐分类数据集，利用谷歌BiT-M ResNet50预训练模型构建了一个高效的食物图像识别系统。通过冻结预训练层并添加批归一化、Dropout等模块，模型在仅6轮训练后即达到92%的验证准确率。实验包含完整的数据预处理、可视化分析及模型评估流程，验证了迁移学习在复杂食品分类任务中的有效性，为餐饮智能化应用提供了可靠的技术方案。代码开源，涵盖从数据加载到模型部署的全流程实现。

2026-07-09 08:29:51 4890 22

原创深度学习实战-基于CNN卷积神经网络的番茄病害叶片图像识别模型

本项目基于Kaggle番茄病害数据集，开发了一个轻量级CNN模型用于叶片病害识别。数据集包含2万余张叶片图像，涵盖10种病害和1种健康状态。实验采用三组卷积层提取特征，配合Dropout防止过拟合，最终测试集准确率达88.31%。通过混淆矩阵和随机样本预测验证了模型对相似病害的区分能力。该研究为开发移动端离线诊断工具提供了算法支持，有助于农户实时监测作物健康状况。

2026-07-06 10:20:22 2776 21

原创深度学习实战-基于EfficientNetV2B0的吸烟者图像检测模型

摘要：本文基于EfficientNetV2B0架构开发了一个吸烟行为检测系统，使用Kaggle提供的1120张图像数据集（吸烟/非吸烟各560张）。通过数据增强、迁移学习和早停机制优化模型，在测试集上达到94.2%的准确率。实验包含完整流程：数据预处理（224×224标准化）、特征工程（随机翻转/旋转增强）、模型构建（冻结预训练权重+自定义分类头）及评估（可视化训练曲线和预测结果）。该方案为公共场所禁烟监控提供了有效的计算机视觉解决方案，源代码已完整公开。

2026-06-30 15:42:09 4784 20

原创社交媒体舆情监控实战：基于 Bright Data AI Studio 的比亚迪品牌口碑追踪方案

本文以比亚迪品牌为案例，借助汽车之家论坛中的真实用户讨论，展示了如何利用 Bright Data AI Studio 快速构建一套品牌口碑追踪方案。从数据采集、舆情主题分析到品牌情绪评估，整个过程体现的并不仅仅是一种技术能力，更是一种企业理解用户的新方式。

2026-06-25 08:22:33 11469 24

原创深度学习实战-基于U-Net视网膜血管图像分割模型

本项目基于U-Net架构实现视网膜血管分割，使用Kaggle眼底图像数据集，通过深度学习技术自动识别血管结构。实验过程包括数据预处理、模型构建、训练与评估，最终在测试集上达到0.877的准确率和0.473的交并比。结果表明U-Net能有效提取视网膜血管特征，为糖尿病视网膜病变等眼疾的早期诊断提供技术支持。

2026-06-16 09:33:07 9017 22

原创深度学习实战-基于MobileNetV2的羊驼图像分类识别模型

本文基于MobileNetV2轻量化架构，针对Kaggle小型羊驼图像数据集进行深度学习分类实验。通过数据增强、迁移学习等技术手段，在5轮训练内实现了98%以上的验证准确率。实验验证了轻量化模型在特定物种识别任务中的高效性，为移动端部署生物分类应用提供了技术参考。

2026-06-11 14:40:03 6294 26

原创深度学习实战-基于DenseNet121的人脸年龄检测模型

本实验数据集来源于Kaggle，该数据集包含来自不同年龄段人群的图像，专门针对年龄预测和人脸识别任务进行精心挑选。数据集涵盖了多样化的人口统计特征、种族和性别。数据集中的人群年龄组：18-20岁、21-30岁、31-40岁、41-50岁和51-60岁本实验依托于 Kaggle 提供的多维度人脸年龄数据集，通过深度密集连接网络，成功构建了一个能够跨越性别、种族及人口统计学特征的年龄区间检测模型。

2026-05-31 15:06:13 4343 26

原创企业级股票舆情监控实战：基于 Bright Data AI Studio 的东方财富股吧数据采集方案

《BrightData AIStudio在企业级金融舆情采集中的应用》摘要本文介绍了BrightData AIStudio在企业级金融舆情采集中的创新应用。该平台通过AI驱动的爬虫生成、托管式云端运行环境、内置代理与自动解封机制等核心能力，有效解决了传统爬虫方案在金融舆情采集中的痛点。文章以东方财富股吧为例，详细演示了从数据目标设定到采集任务扩展的全流程，展示了AIStudio如何降低开发门槛和长期运维风险。

2026-05-26 09:39:37 11550 23

原创深度学习实战-基于ResNet50算法的糖尿病视网膜病变预测分析

本实验数据集来源于Kaggle，该数据集为糖尿病视网膜病变数据集，数据类别共有5类、分别为健康、轻度病变、中度病变、增殖病变、重度病变。

2026-05-24 10:41:35 5085 24

原创深度学习实战-基于EfficientNet的黑色素瘤癌症图像分类识别模型

本项目利用深度学习技术构建黑色素瘤自动诊断系统。基于13,900张皮肤病灶图像数据集，采用EfficientNetV2S模型进行良恶性分类。通过数据预处理、特征工程和模型优化，实现了97%的恶性样本召回率。实验结果显示模型在验证集上AUC达0.9790，准确率92.25%，显著提升了黑色素瘤早期诊断效率。该研究为皮肤癌辅助诊断提供了可靠的技术方案。

2026-05-19 14:46:04 6366 24

原创深度学习实战-基于MobileNetV2的肺癌图像分类识别模型

本项目基于深度学习技术构建了一个病理影像分类系统，用于自动识别肺癌和结肠癌的组织病理学图像。采用MobileNetV2预训练模型，在包含25,000张图像的数据集上进行训练和测试。实验过程包括数据导入、可视化、特征工程、模型构建与训练等完整流程。结果显示，模型在5,000张测试样本上达到98.48%的准确率，F1-Score为0.9848，尤其在良性组织识别上接近100%准确。该系统展现了深度学习在病理诊断中的潜力，为自动化医疗影像分析提供了高效可靠的解决方案。

2026-05-15 12:05:35 5808 22

原创深度学习实战-基于Xception的农场害虫图像分类检测模型

本文介绍了一个基于深度学习的农业害虫识别系统开发项目。项目采用Kaggle提供的15种常见农业害虫图像数据集，重点使用Xception深度可分离卷积架构进行模型训练。实验过程包括数据导入与可视化、特征工程、模型构建（对比ResNet50V2、ResNet152V2、MobileNetV2和Xception四种架构）、训练优化（采用Hyperband算法进行超参数搜索）以及模型评估。结果表明，经过微调的Xception模型在测试集上取得了76.31%的准确率，能够有效识别各类害虫特征。

2026-05-11 16:40:36 5662 32

原创深度学习实战-基于MobileNetV3的眼部疾病图像分类识别模型

本文基于Kaggle提供的眼部疾病数据集，采用MobileNetV3深度学习模型实现自动化眼疾识别。数据集包含5335张专业标注的临床眼底图像，涵盖10余种眼病类型，通过数据增强扩充至16242张。实验采用迁移学习和差异化层冻结策略，在训练集和验证集上分别达到94.75%和86.39%的准确率。研究结果表明，轻量化MobileNetV3架构在保持运算效率的同时，能够有效识别多种致盲性眼病，为移动端医疗诊断设备提供了可行的技术方案。

2026-05-09 09:10:56 4091 26

原创深度学习实战-基于EfficientNetB5的家禽鸡病图像分类识别模型

本项目基于Kaggle家禽疾病数据集，采用EfficientNetB5深度学习模型构建了一套高效的家禽疾病识别系统。实验结果显示，模型在测试集上达到97.4%的准确率，能够精准识别球虫病、新城疫、沙门氏菌等常见家禽疾病。通过数据增强、迁移学习等技术手段，有效解决了养殖户疫病早期诊断难题，为智慧农业提供了可行的技术方案。

2026-05-04 20:54:24 3902 17

原创 AI 时代的 SEO 新战场：如何通过自动化抓取监测品牌在 ChatGPT 中的“排位”？

本文介绍了GEO（生成式引擎优化）时代的品牌监测新方法，重点解析了BrightData的ChatGPT抓取工具在工业级稳定性、结构化数据获取、自动解封和批量处理方面的技术优势。通过对比亚迪品牌的实战演示，展示了如何利用Python脚本或无代码方式批量采集ChatGPT回复数据，并从中分析品牌在AI推荐中的定位、技术优势和短板。文章指出，在AI成为新流量入口的背景下，数据驱动的自动化监测将成为品牌优化的关键，BrightData的工具为此提供了高效合规的解决方案。

2026-04-27 08:52:02 8329 18

原创深度学习实战-基于ContentBranch和CFBranch的混合电影推荐模型

本文基于TMDB电影数据集构建了一个混合推荐系统，融合内容特征与协同过滤方法。研究首先对电影数据（包括文本描述、类型标签和评分）进行预处理和特征工程，使用TF-IDF和SVD提取文本特征，并结合数值特征构建内容表示。模型采用双分支结构：内容分支通过多层神经网络学习语义表示，协同分支通过Embedding学习隐式关系，最终通过融合层预测评分。实验表明，混合模型在保持类型一致性的同时提高了推荐质量，验证了该方法的有效性。研究为处理冷启动问题和提升推荐多样性提供了实用解决方案。

2026-04-23 14:14:26 7513 25

原创深度学习实战-基于LSTM长短期记忆网络的黄金价格预测模型

本实验数据集来源于Kaggle，该数据集包含了2000-08-30 -> 2026-03-03的黄金股票数据。黄金是全球最重要的宏观资产之一，通常反映风险情绪、通胀预期和宏观经济压力。探讨的主题：• 市场结构可视化• 波动率聚类• 机制检测• 季节性行为• 分布分析• 动量动态• 流动性行为• 多维可视化本实验基于Kaggle提供的长期黄金价格数据，围绕时间序列预测任务构建了一个多层LSTM模型，通过引入技术指标特征并结合滑动窗口序列建模，有效刻画了黄金价格的时序依赖关系。

2026-04-20 09:39:45 4623 29

原创深度学习实战-基于卷积神经网络CNN的水果图像分类识别模型

本文介绍了一个基于卷积神经网络(CNN)的水果图像分类项目。使用Kaggle提供的22495张水果/蔬菜图像(33个类别)作为数据集，通过数据预处理、图像增强等技术优化数据质量。构建的CNN模型包含4个卷积模块和全连接层，采用Adam优化器和交叉熵损失函数进行训练。实验结果显示，模型在验证集上达到98.51%的准确率，F1-score接近1.00，表明该模型能有效识别不同水果类别。该项目展示了深度学习在农产品智能化管理中的应用潜力，为后续实际部署提供了参考。

2026-04-14 16:09:24 6147 22

原创数据挖掘实战-基于Random Forest的血细胞异常检测模型

本文基于Kaggle血细胞异常检测数据集，利用机器学习方法构建了血细胞异常识别模型。研究采用包含19种细胞类型的5880条记录，涵盖形态学特征、颜色信息和临床指标等36项特征。通过随机森林、梯度提升树和逻辑回归模型对比实验，结果显示随机森林表现最优，二分类任务AUC达0.9971，准确率97.02%；多分类任务准确率95.92%。特征分析表明细胞直径、面积等形态学特征最具判别力。该模型为临床血细胞检测提供了高效可靠的自动化方案，在提升诊断效率的同时保持较高准确性，具有实际应用价值。

2026-04-11 11:33:56 5148 23

原创深度学习实战-基于ResNet50的面部表情分类识别模型

本文基于ResNet50构建了一个面部表情识别模型，使用Kaggle公开数据集（包含7种情绪类别）进行训练。通过数据增强和迁移学习技术，模型在测试集上达到94.07%的准确率。实验包括数据可视化、特征工程、模型构建与评估等完整流程，验证了深度学习在表情识别任务中的有效性。最终保存模型文件并提供完整源代码，为相关研究提供参考。

2026-04-07 09:20:52 7678 30

原创深度学习实战-基于VIT+GNN的乳腺超声图像分类识别模型

摘要：本研究基于Kaggle公开的乳腺超声图像数据集，构建了一个融合Vision Transformer(ViT)与图神经网络(GNN)的深度学习模型，用于乳腺超声图像的自动分类。实验首先对780张图像进行数据预处理和类别均衡处理，然后利用ViT提取图像特征，通过GNN建模图像patch间的结构关系。结果显示，该模型在测试集上达到68.44%的整体准确率，其中恶性与正常样本识别效果较好。实验还通过损失曲线、准确率曲线和混淆矩阵对模型性能进行了全面评估。

2026-04-03 10:41:13 5895 25

原创深度学习实战-基于ResNet50的皮肤病图像分类识别模型

本项目基于Kaggle皮肤病图像数据集，采用迁移学习方法构建了一个皮肤疾病分类模型。通过加载预训练的ResNet50网络并冻结部分层，结合数据增强、Dropout正则化等技术，实现了对痤疮、湿疹等5类皮肤疾病的自动识别。实验结果表明，模型在测试集上达到94.17%的准确率，验证了迁移学习在医学图像分类中的有效性。该研究为基层医疗提供了一种可行的辅助诊断方案，具有实际应用价值。

2026-03-30 10:50:14 4850 21

原创深度学习实战-基于Xception的阿尔茨海默病图像识别模型

本研究基于Xception架构构建深度学习模型，利用MRI图像对阿尔茨海默病进行自动分类。通过迁移学习策略，模型实现了对轻度、中度、非痴呆和极轻度痴呆四类脑部状态的高精度识别，验证集准确率达97.79%。研究采用规范化的数据处理流程和稳健的训练策略，包括早停机制和学习率衰减，有效避免了过拟合。可视化分析表明模型能准确捕捉脑结构变化特征，为阿尔茨海默病的早期筛查和辅助诊断提供了可行的技术方案，具有临床参考价值。

2026-03-27 10:47:22 3241 22

原创深度学习实战-基于MobileNetV2与VGG16的植物病害图像识别模型

本实验数据集来源于Kaggle，该数据集包含三个标签：“健康”、“粉状”和“锈病”，分别指代植物的生长状况。数据集共包含1530张图像，分为训练集、测试集和验证集。本文系统对比了六种基于迁移学习的卷积神经网络在植物病害图像识别任务上的性能表现，包括MobileNetV2、VGG16、ResNet50、InceptionV3、EfficientNetB0和DenseNet121。

2026-03-25 09:27:54 5315 24

原创深度学习实战-基于EffcientNetB0与MobileNetV3的植物病害图像识别模型

本实验数据集来源于Kaggle，该数据集包含三个标签：“健康”、“粉状”和“锈病”，分别指代植物的生长状况。数据集共包含1530张图像，分为训练集、测试集和验证集。本文基于EfficientNetB0和MobileNetV3-Large构建了植物病害图像识别模型，采用深度互学习策略进行协同训练，在包含健康、白粉病和锈病三类植物状态的数据集上取得了优异性能。

2026-03-23 14:16:43 5743 24

原创深度学习实战-基于CNN卷积神经网络的肺癌和结直肠癌图像识别模型

本文基于卷积神经网络构建了一个肺癌和结直肠癌病理图像的分类识别模型。实验使用25,000张组织病理学图像数据集，包含肺部良性组织、肺腺癌、肺鳞状细胞癌、结肠腺癌和结肠良性组织5个类别。通过构建CNN模型进行训练，在验证集上达到了94.4%的准确率和0.944的F1分数。模型能够有效区分不同癌症类型与正常组织，但在肺鳞状细胞癌与结肠腺癌间存在一定混淆。研究为基于深度学习的病理图像辅助诊断提供了可行方案，后续可进一步优化网络结构提升性能。

2026-03-22 09:17:09 5126 19

原创企业级招聘数据采集实战：基于 Bright Data AI Studio 的自动化爬虫方案

本文介绍了如何使用BrightData AIStudio平台高效采集招聘网站数据。文章首先分析了传统爬虫在招聘数据采集中面临的IP封禁、反爬机制等痛点问题，随后详细展示了AIStudio的核心功能：通过AI自动生成爬虫、云端托管运行环境、内置代理与解封机制、API化交付等企业级解决方案。

2026-03-18 14:53:19 18859 25

原创深度学习实战-基于CNN卷积神经网络的蝴蝶图像分类识别模型

本文基于深度学习技术构建了一个蝴蝶图像分类模型，使用Kaggle提供的包含75种蝴蝶类别的数据集进行实验。通过构建包含三个卷积块的CNN架构，结合批归一化和Dropout正则化技术，模型在验证集上达到79.9%的准确率。研究采用数据增强、早停机制和学习率衰减等策略优化训练过程，有效防止过拟合。实验结果表明该模型能有效识别多数蝴蝶种类，但对部分相似物种仍存在混淆现象。该研究为生物多样性图像识别提供了实践参考，后续可通过迁移学习等技术进一步提升性能。

2026-03-14 16:22:59 5430 23

原创深度学习实战-基于EfficientNet的胸癌图像分类识别模型

本文基于EfficientNet_B0构建了一个胸癌CT图像分类模型，针对腺癌、大细胞癌和鳞状细胞癌三种肺癌亚型及正常组织实现自动分类。实验采用Kaggle胸部CT数据集，通过数据增强（包括模拟CT伪影的椒盐噪声）和迁移学习策略，在验证集上达到89.69%的准确率和0.894的F1分数。模型训练过程采用余弦退火学习率调度，可视化分析显示模型能较好区分不同病变类型，但对腺癌与正常组织的判别存在一定混淆。该研究为肺癌辅助诊断提供了可行的AI解决方案，后续可结合临床特征进一步优化模型性能。

2026-03-11 17:45:05 6715 22

原创深度学习实战-基于ResNet50V2的手绘数字逻辑门图像识别模型

本项目基于ResNet50V2构建手绘数字逻辑门识别模型，采用Kaggle HDL数据集（1200张8类逻辑门图像）。通过MixUp增强、CLAHE预处理和两阶段训练策略，模型验证准确率达97%。关键技术包括：1) 混合精度训练加速；2) 渐进式解冻微调；3) 测试时增强(TTA)提升稳定性。混淆矩阵显示模型能有效区分各类逻辑门，特别针对手绘线条特征优化。研究为手绘技术图纸识别提供了实用解决方案，代码已开源供参考。

2026-03-06 13:45:50 3160 19

原创深度学习实战-基于 NASNet的垃圾图像分类识别模型

本文介绍了一个基于NASNet深度学习架构的垃圾分类识别项目。项目使用包含12类15,150张垃圾图像的Kaggle数据集，通过Python和TensorFlow构建分类模型。实验过程包括数据导入、可视化、特征工程、模型构建与训练等步骤。采用迁移学习策略，利用预训练的NASNetLarge作为特征提取器，结合全连接网络和Dropout正则化。最终模型在测试集上达到99.49%的准确率，验证损失仅0.0202，展现出优异的分类性能。该研究为自动化垃圾分拣系统提供了技术支持，具有实际应用价值。

2026-03-02 11:16:43 3297 17

原创 AI 也能写爬虫？基于 Bright Data + Warp CLI 的网页抓取实战

爬虫的成功与否，往往和代码本身关系不大。对于一个真实网站来说，是否能抓到数据，取决于一整套运行环境，包括但不限于：请求来源是否可信（IP、地理位置、信誉）是否存在频率限制和行为检测是否启用了验证码、JS 渲染或动态加载是否对自动化行为进行识别和拦截生成一段逻辑上合理的抓取代码。它无法：为你提供稳定、干净的出口 IP帮你绕过真实世界中的反爬机制在请求被拦截时自动切换策略这也是为什么很多“AI 写爬虫”的示例，只能在非常理想的测试环境下成立，而一旦面对真实网站，就很容易失效。

2026-02-24 11:34:55 12204 20

原创深度学习实战-基于CNN与Transformer的水稻叶片病害图像识别模型

本研究基于深度学习技术，比较了四种神经网络架构在水稻叶片病害识别中的性能表现。实验使用约19500张标注图像，涵盖7种病害类别。结果表明，Vision Transformer和Swin Transformer模型表现最佳，验证准确率达94.99%；ResNet50和5层CNN分别获得76.19%和72.08%的准确率。Transformer架构凭借其全局注意力机制，在分析病害空间分布模式上展现出明显优势。该研究为构建高效准确的水稻病害自动诊断系统提供了重要参考，对智慧农业发展具有实践意义。

2026-02-21 20:47:21 5584 16

原创深度学习实战-基于CNN卷积神经网络的脑肿瘤MRI图像识别模型

本项目基于Kaggle脑肿瘤MRI数据集，构建了一个CNN分类模型，实现对四种脑部状态（胶质瘤、健康、脑膜瘤、垂体瘤）的自动识别。通过数据增强、模型优化等技术，最终测试集准确率达78%，其中健康脑部识别最佳（F1-score 0.94），垂体瘤召回率最高（0.99）。研究展示了深度学习在医学影像辅助诊断中的应用潜力，为脑肿瘤自动化筛查提供了可行方案。

2026-02-15 14:49:23 8056 10

原创深度学习实战-基于CNN与Transformer的人工智能艺术VS人类艺术识别模型

本项目对比了多种深度学习模型在区分AI生成艺术与人类创作艺术上的表现。实验使用了Kaggle数据集，包含AI和人类艺术两类图像。通过训练Vision Transformer、ResNet50、Swin Transformer和5层CNN等模型，结果显示Swin Transformer以88.21%的验证准确率表现最佳，其次是ViT（86.67%）和预训练ResNet50（85.64%）。

2026-02-11 13:47:01 4446 17

京东vivo手机订单数据集（630197条29个字段）.rar

该数据集为京东平台中vivo手机的销售订单数据集，共有630197条数据，29个字段变量，字段有['订单时间', '支付时间', '出库时间', '完成时间', '手机型号', '商品名称', '订单状态', '订单状态_映射','订单类型', '订单种类', '售后换新订单标志', '售后换新订单标志_映射', '售后申请时间', '售后完成时间', '处理结果','处理结果_映射', '销量', '销额', '京东价', '优惠前金额', '优惠前单价', '优惠后单价', '是否plus会员', '是否学生', '收货省份', '收货城市', '收货区县', '运费', '免运费券金额']

2025-03-23

豆瓣电影数据集（11406条24个字段）.rar

该数据集为豆瓣网中的电影数据集，共有11406条数据，24个字段变量，字段有['电影名称', '评分', '评价人数', '5星人数', '4星人数', '3星人数', '2星人数', '1星人数', '短评数量', '影评数量', '类型', '导演', '编剧', '主演', '制片国家/地区', '语言', '上映日期', '片长', '豆瓣网址', '官方网址', 'IMDb链接', '宣传海报链接', '剧情简介', '总分（评分×评价人数）']

2025-03-23

java开发岗招聘数据爬取+可视化大屏.rar

2025-03-23

京东商品评论爬虫Python.rar

该爬取可以爬取["商品id", "用户昵称",'IP地址', "评分", "商品尺寸", "商品颜色", "评论时间", "评论内容"]这些字段数据。在运行代码之前，只需要在代码中修改要爬取的商品ID、要爬取的页数和要爬取评论的类型即可！因为爬虫具有时效性，在购买该资源之前，请私信联系我代码是否还可以正常运行！

2025-03-23

基于Flask+Bootstrap+机器学习的会计专业毕业生薪资可视化分析系统（10000实验报告+数据集+代码）.rar

2025-03-22

基于机器学习的会计专业毕业生薪资预测模型（7000字实验报告+代码+数据集）.rar

2025-03-22

基于情感分析+网络语义分析+LDA主题分析对大唐不夜城用户评论进行文本分析（数据集+代码）.rar

2025-03-22

数据分析案例-基于红米和华为手机的用户评论分析（数据集+代码）.rar

2025-03-22

数据挖掘实战-基于RFM模型与K-means聚类算法对超市客户进行细分（数据集+代码）.rar

2025-03-22

基于LSTM时间序列模型的香烟销售预测分析（8000字实验报告+代码+数据集）.rar

2025-03-22

数据挖掘实战-基于随机森林算法的空气质量污染预测模型（数据集+代码）.rar

2025-03-22

数据挖掘实战-基于随机森林算法的交通事故预测模型（数据集+代码）.rar

2025-03-22

数据挖掘实战-基于随机森林模型的零售店库存可视化与预测（数据集+代码）.rar

2025-03-22

数据分析案例-青少年心脏病发作数据集可视化分析（数据集+代码）.rar

2025-03-22

数据分析案例-本科毕业后就读MBA的决定数据集可视化分析（数据集+代码）.rar

2025-03-22

数据分析案例-ChatGPT用户评论数据集可视化分析（数据集+代码）.rar

2025-03-22

基于LDA主题分析+文本分析的医学论文分类研究（5000字实验报告+数据集+代码）.rar

2025-03-22

数据挖掘实战-基于随机森林算法的美国加州山火预测模型（数据集+代码）.rar

2025-03-22

数据挖掘实战-基于机器学习算法的空气质量预测模型（数据集+代码）.rar

2025-03-22

数据分析案例-健身房会员锻炼数据集可视化分析（数据集+代码）.rar

2025-03-22

新闻分类数据集.zip

这些数据是从 inshorts 新闻网页应用收集的。该数据集包含 3 列，分别命名为news_headline、news_article和news_category。它还包含来自 7 个不同类别的新闻，例如科技sports、politics、entertainment、world和。automobilescience

2026-01-23

杭州二手房数据3w+条.zip

杭州二手房数据，我爱我家平台甄选：表明房源是否通过了某种质量甄选。即“是”或“否”。介绍：这可能是对房源的简要描述或标题，包含了一些关键信息，如地点、房屋特点等。户型：描述房屋的结构，如“3室2厅”等。一个重要的分类特征，影响房屋的功能和适用性。平方：房屋的面积，通常以平方米为单位。这是一个关键的数值特征，直接影响房价。特征：房屋的特征，如“朝南”、“朝北”等。标准化可以影响房屋的采光和通风，是房产价值的一个楼层。楼层：位于建筑的哪一层。楼层高低可能影响房屋的具体断层、噪音水平等。装修：房屋装修的情况，如“精装修”、“简装修”等。装修和风格水平可能影响房源的吸引力。位置：房屋的具体断层，可能包括街道、社区、是否近地铁等。关注量和看房量：表明房源的受欢迎程度或潜在买家的兴趣。发布时间：房源信息发布到平台上的时间。价格和每平方米价格：房源的销售价格和每平方米的价格。备注：可能包含其他重要信息、满五年、近地铁、随时看房。

2026-01-23

Telegram 垃圾邮件或正常邮寄数据集.zip

20,000 条信息可分为垃圾邮件和非垃圾邮件（70-30%）判断短信是垃圾邮件还是正常短信。

2026-01-23

垃圾邮件数据集.zip

这是一个数据集，其中包含垃圾邮件信息，并且已经过分类。这是一个包含电子邮件文本消息的数据集，这些消息被分为垃圾邮件和非垃圾邮件。数据集包含两列，分别为“ text ”和“ spam ”，其中1表示邮件为垃圾邮件，0表示邮件为非垃圾邮件。该数据集可以帮助您训练分类模型，本质上属于监督学习。

2026-01-23

用于谣言检测的 PHEME 数据集.zip

用于谣言检测和真假分类的 PHEME 数据集：该数据集包含一系列在突发新闻期间发布的 Twitter 谣言和非谣言。它涵盖了与 9 个事件相关的谣言。我们已将 PHEME 数据集转换为 CSV 格式，并重点关注了德国之翼坠机事件和《查理周刊》事件这两个事件。该数据集包含超过 60,000 行数据。

2026-01-23

钓鱼网址数据集（合法&非合法）.zip

该URL数据集包含构建的特征，这些特征用于论文“PhishStorm：使用流分析检测网络钓鱼”中的评估，该论文发表于IEEE TNSM。该数据集包含96,018个URL：48,009个合法URL和48,009个钓鱼URL。这是一个 CSV 文件，其中“domain”列为每个条目（实际上是一个 URL）提供了一个唯一标识符。“label”列提供了域名条目的状态，0 表示合法，1 表示钓鱼。数据量9W+

2026-01-23

Instagram媒体元数据和互动指标数据集.zip

背景：本数据集深入剖析了 Instagram 的内容生态系统，捕捉了高互动公众人物（例如 Keke Palmer 和 Jimmy Fallon）帖子的丰富元数据。在社交媒体营销和网红文化盛行的时代，了解帖子的技术属性和互动驱动因素对于研究人员、营销人员和开发人员至关重要。内容：该数据集包含一个 CSV 文件，其中包含 84 列详细信息。它涵盖了各种媒体格式，包括 Reels（短片）和轮播视频。每条记录都包含帖子表现的快照以及 Instagram 用于投放内容的底层技术参数。关键数据类别： 1-互动指标：点赞数 (like_count)、评论数 (comment_count) 和用户互动标记。内容元数据：标题、帖子时间戳 (taken_at)、媒体类型 (product_type) 和尺寸。用户信息：关于帖子所有者的详细嵌套数据，包括验证状态和个人资料详情。 4-技术细节：视频版本网址、DASH清单链接、图像版本和裁剪信息。合作与赞助：付费合作关系指标（is_paid_partnership）、赞助商标签和联合制作人。灵感与应用案例此数据集非常适合以下用途：探索性数据分析 (EDA)：发现帖子发布时间和互动模式之间的关联。自然语言处理 (NLP)：分析帖子标题中的话题标签和情感倾向，以预测其“病毒式传播”潜力。计算机视觉研究：使用提供的图像和视频 URL 进行图像分类或目标检测。影响力分析：研究付费合作和共同创作如何影响点赞评论比

2026-01-23

Reddit用户评论-机器人vs人类.zip

互联网正在“消亡”吗？到2026年，机器人流量将达到历史新高，有报告显示，近51%的网络活动并非人类所为。该数据集提供了Reddit评论元数据的详细分析，旨在帮助研究人员构建检测模型。此数据集非常适合用于：自然语言处理研究人员正在寻找语言学上的“机器人特征”。社会学家研究网络社区信任的瓦解。数据科学家构建二元分类模型（机器人 vs. 人类）。

2026-01-23

关于Twitter （X）的用户评论

该数据集包含X（原名Twitter ）的用户评论（软件包名称com.twitter.android：）来源于谷歌商店。它涵盖了一个具有重要历史意义的时期，记录了在埃隆·马斯克 (Elon Musk) 的领导下更名为“X”之前、期间和之后的用户情绪。该数据集包含2022 年 7 月至 2025 年 12 月期间收集的10 万条评论。独特价值：该数据集记录了科技史上最具争议的品牌重塑事件之一评分分布：五星好评：约38.6% 一星：约占 45.5%（负面情绪占主导地位）观察：大量 1 星评价表达了对更名（“Balikin burung biru”）、激进的盈利模式（X Premium）和机器人入侵的不满。用例品牌重塑情感分析：比较更名为“X”前后的情感变化。仇恨言论和有害内容： X 以内容未经审核而闻名；使用此数据集检测评论中的有害内容。机器人检测关键词：分析真实用户投诉“机器人”、“垃圾邮件”或“加密货币诈骗”的频率。

2026-01-23

全球 Instagram 影响者排名数据集.zip

本数据集收录了全球顶尖的Instagram网红和名人。它包含国家/地区、平均点赞数、帖子总数、粉丝数、互动率和全球排名等重要参数。该数据集有助于分析Instagram用户互动、网红表现和网络人气。数据科学项目、数字营销策略、网红营销研究和社交媒体分析均可从中受益。研究人员、学生和营销人员可利用此数据集来研究网络名人的发展趋势，对比网红和名人，并了解粉丝数量与互动率之间的关系。

2026-01-23

Labubu为什么火？基于多平台数据的潮玩IP受众与舆情分析（数据集+源码）.rar

2025-07-11

论文复现基于文本挖掘的互联网医疗平台用户画像模型构建.rar

2025-07-02

基于情感分析+网络语义分析对泾阳茯茶用户评论进行文本分析（实验报告+数据集+代码）.rar

2025-07-02

基于Python的东方财富网股票数据可视化分析系统.rar

2025-04-26

国家社科基金项目数据集10w+条(1994-2024年).rar

该数据集包括了1994年到2024年中标的国家社科基金项目，10w+条数据

2025-04-04

大数据分析案例-基于随机森林算法探究电商网站推销商品的影响因素.rar

2025-03-29

豆瓣影评爬虫并词云图可视化.rar

该爬虫代码可以爬取豆瓣网中的电影影评，然后画出词云图可视化，因平台限制，每个电影最多爬取400条影评。使用代码前，需要更换自己登录的cookie 因爬虫代码具有时效性，所以在购买资源之前私信联系我确定该代码是否还可用！

2025-03-24

基于LSTM的南京市天气预测与分析（4000字实验报告+PPT+代码+数据集）.rar

天气预测是科学领域中的一个重要课题，天气预测不仅能为农业生产提供可靠的指导，还能为交通、能源等领域的调度和规划提供参考依据。特别是在气候变化愈发明显的今天，准确的天气预报能够帮助居民企业更好地应对突发天气，减少自然灾害对生产和生活的影响。随着机器学习和深度学习的飞速发展，传统的天气预测方法逐渐被以人工智能为核心的新技术所取代。其中，长短期记忆网络（LSTM）作为一种擅长处理时间序列数据的模型，在天气预测中发挥了显著作用。本次研究中，爬取了基于南京市过去三个月的天气数据，用pytorch框架构建了一个LSTM模型，并利用该模型预测10月份南京一个月的风力和平均气温变化趋势。

2025-03-23

微博热搜爬虫python.rar

该代码用来获取微博中的热搜数据，直接运行代码即可，每次爬取50条

2025-03-23

全国汽油价格数据集.rar

该数据集包含了2023年-2025年3月的全国汽油价格数据集，数据格式为json

2025-03-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人