大模型学习路线(2)——数据工程(数据预处理)

目录

前言

一、数据工程(Data Engine)

二、Token分词/Tokenizer

三、提示工程

四、向量数据库


前言

该思维导图参考自ZOMI酱的B站视频整理而来,数据预处理/数据工程全栈式的思维导图如下:

视频链接1:ZOMI酱的个人空间-ZOMI酱个人主页-哔哩哔哩视频 (bilibili.com)

视频链接2:向量数据库介绍,Vector和Embedding关系 #大模型 #向量数据库_哔哩哔哩_bilibili


一、数据工程(Data Engine)

(待更......)

二、Token分词/Tokenizer

Tokenizer部分直接看此链接足矣:大模型基础组件 - Tokenizer - 知乎 (zhihu.com)

三、提示工程

(待更......)

四、向量数据库

关于知识向量库内容,看ZOMI酱up主该套视频足矣:向量数据库介绍,Vector和Embedding关系 #大模型 #向量数据库_哔哩哔哩_bilibili


(其它再说,最近太忙了,没时间写,挖个坑、下次一定!)

  • 13
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
在计算广告场景中,需要平衡和优化三个参与方——用户、广告主、平台的关 键指标,而预估点击率CTR(Click-through Rate)和化率CVR (Conversion Rate)是其中非常重要的一环,准确地预估CTR和CVR对于提 高流量变现效率,提升广告主ROI(Return on Investment),保证用户体验 等都有重要的指导作用。 传统的CTR/CVR预估,典型的机器学习方法包括人工特征工程 + LR (Logistic Regression)[1]、GBDT(Gradient Boosting Decision Tree)[2] + LR、FM(Factorization Machine)[3]和FFM(Field-aware Factorization Machine)[4]等模型。相比于传统机器学习方法,深度学习模 型近几年在多领域多任务(图像识别、物体检测、翻译系统等)的突出表现, 印证了神经网络的强大表达能力,以及端到端模型有效的特征构造能力。同时 各种开源深度学习框架层出不穷,美团集团数据平台中心也迅速地搭建了GPU 计算平台,提供GPU集群,支持TensorFlow、MXNet、Caffe等框架,提供 数据预处理模型训练、离线预测、模型部署等功能,为集团各部门的策略算 法迭代提供了强有力的支持。 美团海量的用户与商家数据,广告复杂的场景下众多的影响因素,为深度学习 方法的应用落地提供了丰富的场景。本文将结合广告特殊的业务场景,介绍美 团搜索广告场景下深度学习的应用和探索。主要包括以下两大部分: · CTR/CVR预估由机器学习向深度学习迁移的模型探索 · CTR/CVR预估基于深度学习模型的线下训练/线上预估的工程优化
【资源说明】 基于paddle搭建神经网络实现5种水果识别分类python源码+水果数据集.zip 数据集介绍 - 来源:爬虫爬取百度图片 - 内容:总共1036水果图片,共5个类别(苹果288张、香蕉275张、葡萄216张、橙子276张、梨251张) - 图像预处理时,将其中的10%作为测试数据,90%作为训练数据 总体步骤 - 数据预处理:建立分类文件,建立数据集和测试集 - 训练与模型评估 - 读取测试图片进行预测 # 步骤一:预处理 - 图片位于5个目录中,遍历每个目录,将其中的90%写入训练集文件中,10%写入测试集文件中,文件中记录了图片的路径,用于数据读取器进行读取 - 生成3个文件:readme.json(汇总文件)、train_list(训练集)、test.list(测试集) - 注意 - 数据集的路径是否正确 - 生成的汇总文件、训练集文件、测试集文件是否正确 # 步骤二:模型训练与评估 - 模型: - 输入层 ——》 卷积-池化层-dropout ——》 卷积-池化层-dropout ——》 卷积-池化层-dropout ——》全连接层 ——》dropout ——》 全连接层 ——》输出 # 步骤三:预测 优化手段 - 样本 - 增大样本数量 - 数据增强 - 形态变化:翻、平移,随机修剪,尺度变化,旋(卷积核的旋) - 色彩变化:图像白化(将图像本身归一化成Gaussian(0,1)分布) - 加入噪声 - 模型和参数 - 丢弃学习:按照一定的比率丢弃神经元输出 - 权重的衰减:为损失函数添加惩罚项使得训练模型参数尽可能的小 - 批量正则化:在每一层输入之前增加归一化处理,使得均值为0,标准差为1,将数据限制在统一分布之下 - 变化学习率 - 更换精度更高的网络模型,如由简单的CNN换成VGG、GooLeNet 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!
在sklearn库中,数据预处理是指对原始数据进行换和调整,以使其适用于机器学习模型的训练和评估。sklearn库提供了多种数据预处理的方法和函数。 其中,常用的数据预处理方法包括: - 特征选择:通过选择最具有代表性的特征,减少特征维度,提高模型性能。可以使用SelectKBest方法配合chi2方法进行特征选择,例如:X_fschi = SelectKBest(chi2, k=300).fit_transform(X_fsvar, y)。 - 特征换:将原始特征换成更适合模型使用的形式,如使用主成分分析(PCA)进行特征降维。sklearn提供了PCA方法,可以使用sklearn.decomposition.PCA类进行主成分分析。 - 数据规范化:通过缩放原始数据,使其具有相似的尺度,避免某些特征对模型训练的影响过大。sklearn提供了StandardScaler类和MinMaxScaler类进行数据规范化。 - 缺失值处理:处理缺失值的方法包括删除带有缺失值的样本、用均值或中位数替代缺失值等。sklearn提供了Imputer类进行缺失值处理。 - 数据标准化:将原始数据化为均值为0,方差为1的标准正态分布。sklearn提供了StandardScaler类进行数据标准化。 这些方法和函数可以通过调用sklearn库中相应的模块和类进行使用。参考文献提供了关于sklearn库的使用教程和示例,可以详细了解sklearn库中的数据预处理方法的使用。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [机器学习sklearn工具——sklearn中的数据预处理和特征工程](https://blog.csdn.net/weixin_39736118/article/details/128517125)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *3* [数据挖掘库sklearn的使用教程和demo](https://download.csdn.net/download/weixin_67336587/85527941)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值