Python
文章平均质量分 90
机器学习/深度学习/强化学习
不雨_亦潇潇
鹅厂校园大使,阿里云开发者社区专家博主(同名)
展开
-
【大模型】智能驾驶汽车虚拟仿真视频数据理解-学习打卡
文字生成图片是近年来多模态和大模型研究的热门方向,OPENAI 提出的 CLIP 提供了一个方法建立起了图片和文字的联系,但是只能做到给定一张图片选择给定文本语义最相近的那一个。 CLIP的全称是 Contrastive Language-Image Pre-Training,中文是对比语言-图像预训练,是一个预训练模型,简称为CLIP。该模型是 OpenAI 在 2021 年发布的,最初用于匹配图像和文本的预训练神经网络模型,这个任务在多模态领域比较常见,可以用于文本图像检索,CLIP是近年来在原创 2023-11-15 21:59:02 · 238 阅读 · 0 评论 -
【CatBoost报错解决】CatBoostError: Bad value for num feature[non default doc idx=0,feature idx=19]=
问题:训练 CatBoost 模型时遇到报错:CatBoostError: Bad value for num_feature[non_default_doc_idx=0,feature_idx=19]="600600 600600 600100 600100 600600 600700 600100 600100 700600 700600 700100 600700 600600 600600 600100 600600 600700 600100 600100 700600 700600 700原创 2023-09-14 16:56:21 · 493 阅读 · 0 评论 -
【AI for Science】量子化学:分子属性预测-第2次打卡-特征工程baseline上分
1.特征选择;2.压缩空间;3.模型融合;4.报错解决;5.我的代码原创 2023-09-13 22:08:40 · 141 阅读 · 0 评论 -
【AI for Science】量子化学:分子属性预测-第1次打卡-机器学习baseline
宏观世界是由大量的微观粒子组成,了解微观粒子的运动和性质,才能更好的认识宏观世界。借助计算机模拟技术和量子力学的基本原理,量子化学计算应运而生,从电子层面阐明分子的能量、性质以及分子间相互作用的本质。量子化学计算在生物、化学、医药和材料科学等领域中具有广泛应用,例如:预测化学反应的热化学性质、分析分子的光谱学特性、优化材料的物理性质等。然而,量子化学计算存在计算量大、成本昂贵、耗时长等缺点,这限制了其在科学研究和技术创新领域的进一步发展。为了推动量子化学与基础科学研究的深度融合,我们需要积极探索计算成本原创 2023-09-10 00:01:06 · 291 阅读 · 0 评论 -
【NLP】Datawhale-AI夏令营Day10打卡:微调ChatGLM2-6B
🚩【NLP】Datawhale-AI夏令营Day5打卡:预训练模型第五天继续尝试理解预训练模型相关知识,并跑通深度学习方法Topline。🚩【NLP】Datawhale-AI夏令营Day6-7打卡:大模型第六天和第七天学习了大模型的概念,大模型的训练步骤(大尺寸预训练+指令微调+RLHF),Prompt 的概念,以及大模型微调的概念。🚩【NLP】Datawhale-AI夏令营Day8-10打卡:大模型基础Transformer第八、第九和第十天复盘了大模型的基础,在精读论文的基础上理解T原创 2023-08-26 00:12:27 · 130 阅读 · 0 评论 -
【NLP】Datawhale-AI夏令营Day8-10打卡:大模型基础Transformer
在编码器(encoder)和解码器(decoder)之间一般采用CNN或者RNN,而本研究提出了一种简单的仅仅基于注意力机制的架构——Transformer,主要用于机器翻译上面。Transformer是一种完全基于注意力的序列转录模型,它用 多头自注意力(multi-headed self-attention) 取代了编码器-解码器架构中最常用的循环层。Transformer, a sequence transduction model based entirely onattention, repl原创 2023-08-23 23:57:15 · 278 阅读 · 1 评论 -
【NLP】Datawhale-AI夏令营Day4打卡:预训练+微调范式
🚩【NLP】Datawhale-AI夏令营Day1打卡:文本特征提取第一天学习了Python 数据分析相关的库(pandas和sklearn),文本特征提取的方法(基于TF-IDF提取和基于BOW提取,以及停用词的用法),划分数据集的方法,以及机器学习的模型,并尝试跑通了机器学习方法baseline。🚩【NLP】Datawhale-AI夏令营Day2打卡:数据分析第二天学习了数据探索、数据清洗、特征工程、模型训练与验证部分。🚩【NLP】Datawhale-AI夏令营Day3打卡:Bert模原创 2023-08-19 23:55:11 · 175 阅读 · 0 评论 -
【NLP】Datawhale-AI夏令营Day3打卡:Bert模型
预训练+微调范式一定程度上缓解了标注数据昂贵的问题,显著提升了模型性能,但是,ELMo 使用的双向 LSTM 架构存在难以解决长期依赖、并行效果差的天生缺陷,ELMo 本身也保留了词向量作为特征输入的应用,并没能一锤定音地敲定预训练+微调范式的主流地位。2017年,Transformer 模型的提出,为自然语言处理领域带来了一个新的重要成员——Attention 架构。基于 Attention 架构,同样在2018年,OpenAI 提出的 GPT 模型基于 Transformer 模型,结合 ELMo 模型原创 2023-08-18 22:49:08 · 211 阅读 · 0 评论 -
【NLP】Datawhale-AI夏令营Day2打卡:数据分析
1. 学习内容AI夏令营第三期–基于论文摘要的文本分类与关键词抽取挑战赛教程1.1 数据探索数据探索性分析,是通过了解数据集,了解变量间的相互关系以及变量与预测值之间的关系,对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,从而帮助我们后期更好地进行特征工程和建立模型,是机器学习中十分重要的一步。本次实践中我们使用 pandas 来读取数据以及数据探索。✅ 使用pandas读取数据我们利用 pd.read_csv() 方法对赛题原创 2023-08-17 20:27:42 · 230 阅读 · 0 评论 -
【tensorflow2.0】ValueError:A target array with shape was passed for an output of shape...问题解决
其实不应该这么直接修改网络层,softmax层应置于最后一层。在修改网络结构的时候要注意输出神经元的修改,从第二层开始,输入神经元由机器自动判断不用自己定义,但输出神经元还是要自己判断。原创 2020-02-02 14:21:14 · 12445 阅读 · 1 评论 -
【NLP】Datawhale-AI夏令营Day1打卡:文本特征提取
⭐️ 最近参加了由Datawhale主办、联合科大讯飞、阿里云天池发起的 AI夏令营(第三期),我参与了深度学习实践-NLP(自然语言处理)方向 😄⭐️ 作为NLP小白,我希望能通过本次夏令营的学习实践,对NLP有初步的了解,学习大模型,动手完成NLP项目内容,同时通过社区交流学习,提升调参优化等能力⭐️ 今天是打卡的第一天! ✊✊✊⭐️ 按照日程安排,8月16日-18日主要学习机器学习方法,完成任务一。⭐️ 今天我主要学习了 Python 数据分析相关的库,文本特征提取的方法,划分数据集的方法,原创 2023-08-16 23:59:18 · 270 阅读 · 0 评论