数据挖掘
文章平均质量分 74
葡萄成熟时_
看不清未来时 就比别人坚持久一点
展开
-
基于电商图文数据跨模态检索 图文互检系统
model-arch: 模型规模,选项包括: 指定Pytorch模型ckpt路径,上面的代码示例中我们指定为预训练的ckpt路径,也可以指定为用户finetune ckpt的位置。ckpt中的参数需要与model-arch指定的模型规模对应: 指定输出ONNX格式模型的路径(前缀)。完成转换后,代码将分别输出文本侧和图像侧的ONNX格式编码模型文件,FP32与FP16各一版,该参数即指定了以上输出文件的路径前缀和: 指定是否转换文本侧和图像侧模型。原创 2024-07-25 09:51:38 · 377 阅读 · 0 评论 -
【第十二届“泰迪杯”数据挖掘挑战赛】【2024泰迪杯】B题基于多模态特征融合的图像文本检索—更新(正式比赛)
更新内容:全部代码,制作数据、训练权重,结果,视频:其中,LXS文件夹,代表所有的jupyter代码以及Chinese clip模型代码,基于服务器就可以直接运行,(找我分享服务器镜像,不用再配置环境了)今晚将进行选择最大最全面的中文预训练模型,对正式数据再进行训练(很费时间,很费资源。原创 2024-04-14 22:13:55 · 1711 阅读 · 2 评论 -
【第十二届“泰迪杯”数据挖掘挑战赛】【2024泰迪杯】B题基于多模态特征融合的图像文本检索—解题全流程(持续更新)
本题的全部资料打包为“全家桶”,“全家桶”包含:模型数据、全套代码、训练好的模型权重、结果csv、教程、详细实验过程PPT、教学视频、成品论文(还在写作中,后续跟新至文件中)(赠品)基于正式数据的毕设级项目多模态图文互检系统达到“以赛促学”的目的,从0到1,从环境配置开始,到模型构建、数据准备、模型训练、模型recall_TOP1、5、10召回验证、文到图预测、图到文预测、预测结果后处理为result.csv。全流程教学,良心制作。原创 2024-03-23 13:09:29 · 4366 阅读 · 11 评论 -
【第十一届泰迪杯B题产品订单的数据分析与需求预测产品订单的数据分析与需求预测 】第二大问代码分享+解题思路(EDA数据再探索+LightGBM模型)
- 根据第一问的简单分析,和衍生出了一些特征,例如年月日、价格标签、是否节假日、week等- 读入第一问保存的文件csv,process1.csv,进行数据再探索,发现需要对价格进行更细致的分区间,我采用最优分箱操作,将每个产品的价格归为不同的价位区间,因为相同的产品,它在不同的地区,不同的时间,价格会有波动,所以使用分箱,可以大致归纳价格特征。- 然后再在此基础上,衍生出其他特征,星期几、是否工作日等(因为跟据EDA数据探索和第一问可视化分析,发现周末、还有不是工作日时,需求量会有所上升。)原创 2023-04-06 19:57:41 · 11883 阅读 · 21 评论 -
【第十一届“泰迪杯”数据挖掘挑战赛】B题产品订单的数据分析与需求预测“解题思路“”以及“代码分享”
此题我们需要分析:不同大品类2015到2018年需求量分析、不同细分品类2015到2018年需求量分析从而得出不同点与共同点。首先需要对日期进行判断月初、月中、月末区间,打上标签,再根据标签进行分组(注意:数据中2018的12月没有月末区间数据)先对每天的需求量进行统计,再进行对数据季节打标签处理,最后分组统计获得每年每个季节的需求量均值,绘图分析。(2) 产品所在区域对需求量的影响,以及不同区域的产品需求量有何特性;创作不易,还请见谅!计算促销日期所在周的需求量,以及其前一周,后一周的需求量,原创 2023-03-26 23:20:14 · 20340 阅读 · 10 评论 -
【第十一届“泰迪杯”数据挖掘挑战赛】泰迪杯c题爬虫采集数据(源码+数据)
根据工作id获取详细数据(1571条).csv:)]原创 2023-03-11 20:20:53 · 6744 阅读 · 13 评论 -
YOLOv5害虫识别项目代码打包完整上传Gitee仓库(已开源)以及git上传速率限制踩坑记录
最近很多小伙伴需要这个,由于文件过大,所以将代码完整上传至gitee,所有文件、教程、论文、以及代码模型、模型结果等。文末有,还请点个小关注。原创 2023-03-07 17:38:45 · 1017 阅读 · 1 评论 -
“与众不同”的TOP250详细数据采集,pyecharts世界地图多维可视化展示
本文描述爬取250的电影详细信息,包括对电影名、评分、评论人数、电影名言、导演演员信息、电影年份、电影国家、电影类型等详细爬取;并且针对爬取的数据使用Numpy、pandas等进行了数据处理、拆分、分组等操作,最后使用pyechatrs对数据进行柱状图、实时排序图、世界地图、饼图等可视化展示。原创 2023-02-20 15:54:16 · 735 阅读 · 0 评论 -
大数据课程设计(一)二手房数据挖掘可视化
一个人为单位,设计并实现数据可视化系统,项目应能够将数据以柱状图、折线图、等图表进行展示,图表清晰、系统功能设计完整、合理,同时录制讲解视频、配套论文原创 2023-01-15 10:13:40 · 1415 阅读 · 0 评论 -
第五届“泰迪杯”数据分析技能赛 经验代码分享
在各类学科竞赛中,常常要求参赛者提交Excel或/和PDF格式的竞赛作品。本赛题以某届数据分析竞赛作品的评阅为背景,要求参赛者根据给定的评分准则和标准答案,使用Python编程完成竞赛作品的自动评判。本届竞赛于2022年9月5日正式开始,至2022年11月13日结束,历时两个半月。技能赛共计有来自全国249所高校1603支队伍报名参赛,由高校和公司共同组成的评审专家组历时半个月的盲审。本届竞赛采用盲审(屏蔽参赛者信息;两位评阅专家同时评阅同一作品,超限调整后再取平均分原创 2023-01-13 09:28:07 · 2932 阅读 · 0 评论 -
钉钉杯初赛A题建模-多模型融合预测银行卡诈骗模型(详细代码、解释)
使用多种用于数据挖掘的机器学习模型对给定数据集进行建模;2) 对样本数据进一步挖掘分析,通过交叉验证、网格调优对不同模型的参数进行调整,寻找最优解,将多个最优模型进行进一步比较;3) 通过对 precision(预测精度)、recall(召回率)、f1-score(F1 分数值)进行计算,给出选择某一种预测模型的理由;4) 将模型性能评价通过多种作图方式进行可视化......原创 2022-08-13 20:53:11 · 4263 阅读 · 1 评论 -
2021 年“泰迪杯”数据分析技能赛 B 题 肥料登记数据分析 (视频讲解+解题源码)、数据挖掘、数据分析实战
1. 对肥料登记数据进行预处理。2. 根据养分的百分比对肥料产品进行细分。3. 从省份、日期、生产商、肥料构成等维度对肥料登记数据进行对比分析。4. 对非结构化数据进行结构化处理。原创 2022-07-21 18:26:01 · 3932 阅读 · 7 评论 -
游玩数据获取与数据分析、数据挖掘 【2022.5.30】
正经爬虫入门案例、旅游业又可以称作为旅游产业,主要是从事招待接待游客,为游客提供食宿、交通、餐饮、文化、娱乐等服务的综合性产业。在很多地区,旅游业已经成为当地经济发展的支柱产业,对于脱贫攻坚具有非常重要的意义。本文通过采集数据、数据清洗、得到初步的规范的理想数据集。..................原创 2022-07-16 18:16:01 · 871 阅读 · 0 评论 -
数据分析与数据挖掘实战案例本地房价预测(716):
原2022 年首届钉钉杯大学生大数据挑战赛练习题目练习题 A:二手房房价分析与预测解题代码,分享学习住房一直以来都是人们关心的热门话题,房价也是人们时时刻刻关心的热点。虽然新房子更加上档次,但是二手房有着现房交易,地段较好,配套设施完善,选择面更加广泛等优势,因此二手房越来越受到广大消费者的青睐。根据现有二手房的地段、装修等属性预估该二手房的价格也是买卖双方所关心的问题。因此通过现有数据,分析并且预测二手房的价格是一项有意义的研究课题。...原创 2022-07-16 10:02:19 · 5955 阅读 · 3 评论