自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(194)
  • 收藏
  • 关注

原创 天池AI大模型技术提升营火热上线,四重好礼等你来拿!

【活动二】邀请好友报名指定学习赛,累计助力赢苹果iPad、大疆无人机、韶音蓝牙耳机等好礼。【活动四】天池十周年特别活动,分享您与天池的故事,赠送天池十周年纪念大礼包。【活动三】参加比赛赢奖励,排名越高,奖励越丰厚。【活动一】完成3步学习任务,赢取定制加湿器。活动时间:即日起至8月13日,快来参加吧!

2024-07-17 09:58:28 216

原创 【天池科普】1. 为啥人人都要学AI

在这个信息爆炸的时代,人工智能(AI)不仅是技术进步的标志,更是推动社会向前发展的强大引擎。无论你是AI领域的新手,还是有一定基础的学习者,这里都会有适合你的内容。让我们一起来开启这段学习之旅,探索AI的奥秘,发现它是如何影响我们的世界的。自20世纪50年代人工智能概念的诞生以来,AI技术经历了多次起伏,从最初的逻辑推理到今天的深度学习,AI技术不断突破,成为推动社会进步的重要力量。通过简单的编程接口来访问这些强大的AI工具,运用AI能力去改变自己的生活方式和提升自己的工作效率。AI的发展正在改变我们的。

2024-06-11 11:17:30 462 1

原创 阿里云天池AI课程证书学习计划

课程5:学习《AI大模型》课程,全面了解AI大模型的起源与发展,学习搭建多模态生成式AI应用的多重工具和方法,跟着课程一步步搭建属于自己的生成式AI应用。📆 活动时间:即日起,加入天池AI课程证书学习计划,解锁新技能,领取结业证书,我们的每一次学习、每一次成长都值得被见证!课程3:学习《AI计算机视觉》课程,深入探索图像识别和处理技术,学习构建能够理解和解释视觉信息的智能系统。课程4:学习《AI自然语言处理》课程,理解文本数据的处理方法,学、练、赛模式带你轻松入门自然语言处理。

2024-05-27 10:28:23 255

原创 首届云原生编程挑战赛总决赛亚军比赛攻略(ONE PIECE团队)

一个简化的Faas系统分为APIServer,Scheduler,ResourceManager,NodeService,ContainerService 5个组件,本题目中APIServer,ResourceManager,NodeService,ContainerService由平台提供,Scheduler的AcquireContainer和ReturnContainer API由选手实现(gRPC服务,语言不限),Scheduler会以容器方式单实例运行,无需考虑分布式多实例问题。

2024-05-06 16:26:14 796

原创 【参赛总结】第二届云原生编程挑战赛-冷热读写场景的RocketMQ存储系统设计 - Nico

来额外分配堆外的堆外内存,所以可供我们使用的DRAM只有2G的堆外以及6G的堆内,又由于JVM的GC机制外加程序本身的业务流程需要一定的内存开销,所以6G的堆内可供我们用来做数据存储的部分大打折扣(实际测下来可以用到3.2G),而堆外内存会有一部分用于文件读写缓冲,所以堆外内存可用量也会小于2G。二阶段开始,每次读取都会淘汰失效的缓存并放入缓存池中,写入过程中会优先按照记录大小从缓存池中获取到相应的缓存块,理想情况下每次都能申请到对应的缓存块并写入,Missing时记录数据在ESSD上的位置索引。

2024-05-06 16:24:26 712

原创 docker攻略,希望能帮助到大家对docker的理解

通常,当一份代码拷贝到另一台机器上时,经常会由于缺少一些环境依赖导致运行失败,有时候即使一个个的花时间解除了这些依赖,程序的运行结果也可能由于不同的机器系统、不同的环境依赖版本而导致结果的不同,这为程序的迁移造成了很大的麻烦。间是有个空格的,这个表示把当前目录下的所有文件挂载到镜像的根目录下,这也是这两个符号的含义。:这里是指你的初始镜像内容,可以理解为从某个已经构建好的镜像开始搭建自己的镜像,这里所选取的是阿里云的一个带了python3的镜像,相当于一个已经安装了python3的linux环境。

2024-05-06 16:21:35 1045

原创 江苏气象AI算法挑战赛亚军比赛攻略_DontMind队

本次比赛主要是针对大风/雷达回波/降水的短临预报,属于典型的时空序列预测问题,此类问题可以从分类和回归预测两个角度来解决。按照各气象要素阈值区间进行分类,可以转化为分类预测问题;从回归预测的角度又分为单变量回归预测和多变量回归预测。由于大风和降水预测很难转换为分类预测问题,而且我们经过大量的模型试验表明,多变量回归预测很难同时达到最优,且很难超越单变量回归预测。因此,我们最终采用了单变量回归预测思路,并利用过去一小时数据预测未来两小时各气象要素的时空演变。

2024-05-06 16:19:04 616

原创 【Numpy学习】Numpy基础:数组和矢量计算

1.7 布尔型索引 来看这样一个例子,假设我们有一个用于存储数据的数组以及一个存储姓名的数组(含有重复项)。如果两个数组的维数不相同,则元素到元素的操作是不可能的。来看这样一个例子,假设我们有一个用于存储数据的数组以及一个存储姓名的数组(含有重复项)。注意:使用numpy.string_类型时,一定要小心,因为NumPy的字符串数据是大小固定的,发生截取时,不会发出警告。在多维数组中,如果省略了后面的索引,则返回对象会是一个维度低一点的ndarray(它含有高一级维度上的所有数据)。

2024-04-28 09:44:12 820

原创 天池精准医疗大赛-冠军解决方案

1.赛题回顾1.1. 竞赛背景与意义GDM(妊娠期糖尿病)是仅限于妊娠期发生的糖尿病,多发生在坏孕3月后,分娩后大部分恢复正常,GDM孕妇产后5-16年,大约有17-63%发展成2型糖尿病;再次妊娠时GDM的复发率高达52-69%。从数据挖掘、机器学习的方法上超早期精准评估GDM患病的风险,制定精准预防方案,保障母胎安全,降低GDM发病率。1.2竞赛题目。

2024-04-28 09:39:21 708

原创 铝型材表面瑕疵识别-Are you OK?队-1-解决方案

本次大赛分为初赛、复赛和决赛三个阶段(9月17日-11月22日),初赛是分类任务,复赛是检测任务,决赛是现场答辩。经过2个多月的算法角逐和决赛答辩,我们团队(Are you OK?这里着重介绍下复赛的答辩方案,对初赛感兴趣的同学可以参照我们的开源代码。[初赛开源代码1](https://github.com/herbert-chen/tianchi_lvcai)[初赛开源代码2](https://github.com/OdingdongO/pytorch_classification)

2024-04-28 09:36:30 1500

原创 BERT一个蛋白质-季军-英特尔创新大师杯冷冻电镜蛋白质结构建模大赛-paipai

paipai队、取自 PAIN + AI,核心成员如我本人IvanaXu(),从事于金融科技业,面向银行信用贷款的风控、运营场景。但我们团队先后打过很多比赛,其中跨领域居多,如天文、海洋,也非常有幸参加本次蛋白质结构建模大赛。我们将延续“他山之石,可以攻玉”的基本思想,这也将在后续方案中体现。1、直接转换为文本问题进行解决事实上我们也发现其实这与Alphafold2的序列处理有类似的地方,但不同AI场景下2D 和3D transformers的发展,可能还可以进一步借鉴。

2024-04-28 09:30:33 1070

原创 Data-Centric vs Model-Centric:谁才是机器学习最佳实践指南?

代码和数据是人工智能系统的基础。这两个组件在稳健模型的开发中都发挥着重要作用,但您应该更关注哪一个?在本文中,

2024-04-22 16:21:45 646

原创 数据洞察创新挑战赛之智能运维赛参赛攻略--皮卡丘的皮卡

13.参加数据洞察创新挑战赛的故事和经验分享从6月到10月底,这个比赛跨度很长。运维赛复赛长时间没有进展,都有点放弃了,在最后一天查看代码时候发现了一些小问题,把成绩提高上来了,也算是对我认真写注释的回报。最后占了初赛30%的便宜拿了第一,运气和结果都很好。14.对其他有意参加下一届数据洞察创新挑战赛的人的建议和鼓励答:搏一搏,说不定就拿奖了。

2024-04-22 16:18:15 1179 1

原创 E-MapReduce极客挑战赛季军方案

前一段时间我参加了E-MapReduce极客挑战赛,很幸运的获得了季军。在这把我的比赛攻略给大家分享一下,希望可以抛砖引玉。

2024-04-22 16:15:53 747 2

原创 第二届阿里巴巴大数据智能云上编程大赛亚军比赛攻略_北方的郎队

查看本文全部内容,欢迎访问天池技术圈官方地址:第二届阿里巴巴大数据智能云上编程大赛亚军比赛攻略_北方的郎队_天池技术圈-阿里云天池

2024-04-22 16:13:36 454 1

原创 Task01:初识数据库与SQL-天池龙珠计划SQL训练营

节约篇幅,具体相关介绍以及给大家写到pdf里了,大家点击链接即可进入查看:http://tianchi-media.oss-cn-beijing.aliyuncs.com/dragonball/SQL/other/阿里云MySQL服务器使用介绍.pdf操作使用方便,未来趋势(数据上云),导入、导出数据方便,运行速度快。需要付费购买,不过现在对开发者有优惠活动,基础版本 1核1G,存储空间20G的,目前优惠价半年只需9.9元,一杯奶茶钱不到。

2024-04-19 09:29:38 723

原创 天池酒瓶瑕疵检测数据集分析及完整baseline

这里提供一份训练config,根据具体优化自行修改。

2024-04-16 18:07:04 1013

原创 朝着抵抗力最大的路径走-Rank16-强化学习、黑盒攻击、Baseline-SecurityAI

GAN的不同之处在于,奖励函数对行为是完全已知和可微分的,奖励是非固定的,以及奖励是agent的策略的一个函数。简单来说,神经网络的输入是原始的状态信息,优化即在该状态下执行动作的回报,即Q函数,输出是该状态下执行动作的概率。但这还比破译密码简单,因为会返回一定的分数,给你评估这次破译是否合理,误差多少。一般来说,当有方法能促使白盒模型1、白盒模型2得分最大后,黑盒模型得分甚低,攻击随机陷入局部最优。以探索经验来说,强化学习的关键在于奖励,试想怎么走都没有分数的话,模型无论如何学不会最终结果。

2024-04-16 17:13:22 984

原创 二手车价格预测第十三名方案总结

比赛介绍赛题以二手车市场为背景,要求选手预测二手汽车的交易价格,这是一个典型的回归问题。其他具体流程可以看比赛官网。数据处理1、box-cox变换目标值“price”,解决长尾分布。2、删除与目标值无关的列,例如“SaleID”,“name”。这里可以挖掘一下“name”的频度作为新的特征。3、异常点处理,删除训练集特有的数据,例如删除“seller”==1的值。4、缺失值处理,分类特征填充众数,连续特征填充平均值。5、其他特别处理,把取值无变化的列删掉。

2024-04-09 16:08:39 1126

原创 人社大赛算法赛题解题思路分享+季军+三马一曹团队

团队成员介绍:梅鵾 上海交通大学 众安科技 算法工程师吴栋梁 复旦大学 众安科技 算法工程师李玉娇 复旦大学 众安科技 算法工程师一、赛题背景分析及理解本赛题提供了部分地区2016年度的医疗保险就医结算脱敏数据,主要包括人员医疗费用记录以及费用明细等信息,希望通过算法模型实现对各类医疗保险基金欺诈违规行为的精准识别。

2024-04-09 16:03:41 688

原创 天池医疗AI大赛[第一季] Rank5解决方案

数据格式本次大赛数据集包含数千份高危患者的低剂量肺部CT影像(mhd格式)数据,每个影像包含一系列胸腔的多个轴向切片。每个影像包含的切片数量会随着扫描机器、扫描层厚和患者的不同而有差异。原始图像为三维图像。这个三维图像由不同数量的二维图像组成。其二维图像数量可以基于不同因素变化,比如扫描机器、患者。Mhd文件具有包含关于患者ID的必要信息的头部,以及诸如切片厚度的扫描参数。数据由大赛合作医院授权提供,全部是肺部CT影像(mhd格式)数据。

2024-04-09 16:00:11 1241

原创 【IJCAI-2018】搜索广告数据探索与可视化

1 简介本文使用python对大赛数据进行了探索与分析,以可视化的方式做了一点微小的工作,供大家参考,文中有错误的内容望读者及时指正。搜索广告的转化率,作为衡量广告转化效果的指标,从广告创意、商品品质、商店质量等多个角度综合刻画用户对广告商品的购买意向,即广告商品被用户点击后产生购买行为的概率。本次比赛依托电商CTR数据为基础,旨在通过广告商品信息、用户信息、上下文信息和店铺信息等4类数据,对转化率进行预估以辅助商家决策。

2024-04-09 15:54:25 1076

原创 零基础入门NLP - 新闻文本分类比赛方案分享 nano- Rank1

nano- 康一帅通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。要求选手根据新闻文本字符对新闻的类别进行分类,这是一个经典文本分类问题。

2024-04-09 15:49:47 718

原创 Rank4 NLP新闻文本分类-开源代码+经验分享@惊鹊

对抗验证,我们可以从训练数据中抽取一部分以及从测试数据中抽取一部分提取特征然后用一个简单快捷的模型进行训练,将训练数据对应的label设置为1,将测试数据对应的label设置为0,如果模型分类效果很好,那么可能本次比赛不是很好入手,因为训练集和测试集的分布都不是那么接近了。-具体的代码实现可以见我的github。

2024-04-01 09:52:39 891

原创 【详细注释+流程讲解】基于深度学习的文本分类 TextCNN

Vocab 的作用是:创建 词 和index_id2word和。其中_id2word是从新闻得到的, 把词频小于 5 的词替换为了UNK。对应到模型输入的。是从中得到的,有 5976 个词。对应到模型输入的。后面会有两个embedding层,其中_id2word对应的embedding是可学习的,对应的embedding是从文件中加载的,是固定的。创建 label 和 index 对应的字典。上面这些字典,都是基于train_data创建的。

2024-04-01 09:50:08 933

原创 天池医疗AI大赛[第一季] Rank8解决方案[附TensorFlow/PyTorch/Caffe实现方案]

团队成员:北京邮电大学 模式识别实验室硕士研究生今年5月,参加了天池医疗AI大赛,这次比赛是第一次参加此类的比赛,经过接近半年的比赛,终于10月落下帷幕,作为第一次参加比赛,能在接近3000支队伍中拿到第8名,感觉已经比较满意,不过也有许多遗憾之处,在此主要介绍一下我们比赛的方案。摘要本次竞赛要求从数千例CT 影像中找出肺结节的位置,并给出概率。相比于图片,CT影像可以看成3维的数据,更大更耗费资源,也更难以提取特征。

2024-04-01 09:42:57 1503 1

原创 【机器学习入门】拥抱人工智能,从机器学习开始

一个简单的场景:已知房屋价格与尺寸的历史数据,问面积为2000时,售价为多少?此类问题可以用回归算法来解决。回归是指确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,通过建立一个回归方程(函数)来估计特征值对应的目标变量的可能取值。最常见的是线性回归(Y= a X + b),即找到一条直线来预测目标值。回归的求解就是求解回归方程的回归系数(a,b)的过程,并且使误差最小。房价场景中,根据房屋面积和售价的关系,求出回归方程,则可以预测给定房屋面积时的售价。

2024-04-01 09:39:10 1103

原创 使用EasyRec快速构建推荐模型

随着移动app的普及,个性化推荐和广告成为很多app不可或缺的一部分。他们在改善用户体验和提升app的收益方面带来了巨大的提升。深度学习在搜广推领域的应用也已经非常深入,并且给各种场景的效果带来了巨大的提升。针对推荐流程的各个阶段,业界已经有很多的模型,这些模型大部分也有开源的实现,但是这些实现通常散落在github的各个角落,其数据处理和特征构造的方式各有差异。这些问题搞得我们心有余而力不足、天天加班到深夜、不知何时是个头:想要验证一个简单的idea都要使出九牛二虎之力。

2024-04-01 09:35:47 1055

原创 天池医疗AI大赛[第一季] Rank22解决方案:适合新人的工程指南

参加本次医疗AI大赛收获良多,由于相关的经验不多,及预计时间会不够,所以一开始确定的参加比赛思路是:“使用最直接简单的方式完成比赛,不过度追求准确率”,实际参赛过程中,使用UNET及传统的VGG结构神经网络分别实现了分割、分类2个步骤,最后的FROC得分最高为0.54(初赛成绩,复赛中因时间有限仅完成了分割部分)。

2024-03-25 13:32:09 687

原创 2022全球AI生物智药大赛赛道二参赛攻略@paipai

paipai队,取自 PAIN + AI,我们团队先后打过很多不同领域的算法比赛,之前参加过“创新大师杯”冷冻电镜蛋白质结构建模大赛 [03],为继续深入生物计算相关技术,进而参加了本次比赛。我们同时打了本次“云上进化”2022全球AI生物智药大赛:赛道一“基于AI算法的SARS-CoV-2广谱中和抗体药物设计” [04]、赛道二“抗原抗体结合Epitope和Paratope精准确定” [05]。其中,赛道一初赛Rank14、复赛Rank10;

2024-03-25 13:23:52 591

原创 一文详解常见医学自然语言理解任务和算法

CBLUE的全称是Chinese Biomedical Language Understanding Evaluation Benchmark,包括医学文本信息抽取、医学术语标准化、医学文本分类和医学问答4大类常见的医学自然语言处理任务。CBLUE为研究者们提供真实场景数据的同时,也为多个任务提供了统一的测评方式,目的是促进研究者们关注AI模型的泛化能力。

2024-03-25 13:19:15 735

原创 数据挖掘终篇!一文学习模型融合!从加权融合到stacking, boosting

通过融合多个不同的模型,可能提升机器学习的性能。这一方法在各种机器学习比赛中广泛应用, 也是在比赛的攻坚时刻冲刺Top的关键。而融合模型往往又可以从模型结果,模型自身,样本集等不同的角度进行融合。

2024-03-25 12:56:55 1129

原创 零基础入门数据挖掘系列之「特征工程」

对于数据挖掘项目,本文将学习应该从哪些角度做特征工程?从哪些角度做数据清洗,如何对特征进行增删,如何使用PCA降维技术等。

2024-03-25 11:03:56 1225

原创 「数据分析」之零基础入门数据挖掘

对于数据挖掘项目,本文将学习应该从哪些角度分析数据?如何对数据进行整体把握,如何处理异常值与缺失值,从哪些维度进行特征及预测值分析?

2024-03-20 16:27:02 983

原创 零基础入门数据挖掘系列之「建模调参」

模型调参基于特征工程所构建的模型上限来优化模型。由于模型的不同和复杂度,模型的参数数量也都不一样。线性模型需要调整正则化的系数,而对于非线性模型,例如随机森林和LGB等模型,需要调节的参数增多。模型调参的目的就是提升模型的性能度量。对于回归算法,我们要降低模型在未知的数据上的误差;对于分类算法,我们要提高模型在未知数据上的准确率。回归分析回归分析是一种统计学上分析数据的方法,目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型。

2024-03-20 16:25:29 871

原创 Datawhale 零基础入门数据挖掘-Task1 赛题理解

v_0', 'v_1', 'v_2', 'v_3', 'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'v_10', 'v_11', 'v_12', 'v_13','v_14' 【匿名特征,包含v0-14在内15个匿名特征】一般而言,对于数据在比赛界面都有对应的数据概况介绍(匿名特征除外),说明列的性质特征。对于二类分类器/分类算法,评价指标主要有accuracy, [Precision,Recall,F-score,Pr曲线],ROC-AUC曲线。

2024-03-20 16:23:36 1109

原创 一文带你详解天池工业数据集

人工智能是国家战略性新兴产业,制造业是国民经济的主体,随着人口红利的消失,加强设备自动化改造,提高生产自动化程度,减小劳动强度,改善作业环境,已经成为制造业的普遍共识。天池大赛开放出一批在实际生产过程中积累的数据集,涵盖纺织、食品饮料、非金属制品等行业,希望通过计算机视觉以及人工智能等技术手段来帮助制造业提高质检效率以及效果、降低质检成本。

2024-03-20 16:19:41 636

原创 一文带你详解天池电商数据集

淘系技术部隶属于阿里巴巴新零售技术事业群,支撑淘宝、天猫核心电商以及闲鱼、躺平等创新业务,服务9亿用户,赋能各行业1000万商家。淘系技术打造了全球领先的线上新零售技术平台,并作为核心技术团队保障了11次双十一购物狂欢节的成功。通过不断探索和衍生颠覆型互联网新技术,打造了业内领先的淘宝直播、智能营销等技术体系,并且通过技术驱动商业,在家装家居赛道中成功开创了躺平新业务,以更加智能、友好、普惠的科技深度重塑产业和用户体验。

2024-03-20 16:16:05 745

原创 使用EasyRec快速构建推荐模型

随着移动app的普及,个性化推荐和广告成为很多app不可或缺的一部分。他们在改善用户体验和提升app的收益方面带来了巨大的提升。深度学习在搜广推领域的应用也已经非常深入,并且给各种场景的效果带来了巨大的提升。针对推荐流程的各个阶段,业界已经有很多的模型,这些模型大部分也有开源的实现,但是这些实现通常散落在github的各个角落,其数据处理和特征构造的方式各有差异。

2024-03-13 10:10:00 822

原创 一文带你详解天池医疗数据集

CBLUE:中文医疗信息处理评测基准,是由中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起,由阿里云天池平台承办医疗自然语言处理评测基准,旨在推动中文医学NLP技术和社区的发展。与此同时,阿里云天池平台也积极推动产学研的共同进步,开源了多个本地生活领域的数据集,如aBeacon(室内定位)、ALWAES(POI校准)、RL-Dispatch(物流调度)等多个来源于真实场景的脱敏数据集,与全球学者/科研人员共享技术成果。

2024-03-13 09:55:19 643

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除