自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(201)
  • 收藏
  • 关注

原创 深度学习每周学习总结N8:seq2seq翻译实战

循环中),解码器的输入都是目标序列中的真实标签。这样做的好处是,解码器可以直接获得正确的输入信息,加快训练速度,并且在训练早期提供更准确的梯度信号,帮助解码器更好地学习。在训练过程中,Teacher Forcing将目标序列的真实值作为解码器的输入,而不是使用解码器自己的预测结果。在序列生成的任务中,如机器翻译或文本生成,解码器(decoder)的输入通常是由解码器自己生成的预测结果,即前一个时间步的输出。时,采用"Teacher Forcing"的策略,即将目标序列中的真实标签作为解码器的下一个输入。

2024-08-23 21:53:15 504

原创 特征工程练手(四):特征选择

在本节,我们深入探讨了选择特征的多种方法,包括使用相关系数、机器学习模型等方式来优化特征集。相关系数:通过计算特征之间的相关系数,可以了解它们之间的线性关系。相关系数越高,表示两个特征之间的线性关系越强,可以用于判断特征之间的相关性。理解 p 值:p 值是统计检验中的一个重要指标,表示观察到的结果在零假设成立时发生的概率。通常,当 p 值小于显著性水平(通常设为 0.05)时,我们会拒绝零假设。用机器学习测量熵和信息增益:在决策树等模型中,可以使用信息熵和信息增益来评估特征的重要性。

2024-08-21 15:59:02 857

原创 大模型学习应用 2:快速上手大模型基于langchain实现RAG检索应用

快速上手大模型基于langchain实现RAG检索应用 - 项目作业。

2024-08-20 16:41:18 701

原创 深度学习每周学习总结N7:seq2seq翻译实战

循环中),解码器的输入都是目标序列中的真实标签。这样做的好处是,解码器可以直接获得正确的输入信息,加快训练速度,并且在训练早期提供更准确的梯度信号,帮助解码器更好地学习。在训练过程中,Teacher Forcing将目标序列的真实值作为解码器的输入,而不是使用解码器自己的预测结果。在序列生成的任务中,如机器翻译或文本生成,解码器(decoder)的输入通常是由解码器自己生成的预测结果,即前一个时间步的输出。时,采用"Teacher Forcing"的策略,即将目标序列中的真实标签作为解码器的下一个输入。

2024-08-16 21:03:16 928

原创 特征工程练手(三):特征构建

在本节中,讨论了针对数值数据和文本数据进行特征构建的方法。填充分类特征:对于分类特征,可能需要处理缺失值。学习如何进行填充以确保数据的完整性和准确性。编码分类变量:将分类变量转化为机器学习模型可以理解的形式。扩展数值特征:通过使用现有数值特征创建新的特征,以提供更多信息给模型。词袋法:将文本表示为单词的出现频率,转化为向量形式,可用于机器学习算法。CountVectorizer:将文本数据转换为其向量表示的最常用办法,和虚拟变量类似。

2024-08-12 18:19:29 789

原创 特征工程练手(二):特征增强

在本节,我们深入学习了处理数据中的缺失值,特别是针对定量数据的修复方法。了解如何有效地处理缺失值是数据预处理中至关重要的一步,它能够提高模型的鲁棒性和性能。重点内容主要有观察标签分布,各维度相关性。处理异常值,将原本用0填充的数据做None填充,观察用0填充的数据统计量变化情况。分别用不同方式做数据填充以及数据标准化的方法,并使用网格搜索得到最优结果。值得注意的是,在做数据填充的时候,需要在划分训练集测试集后,使用训练集的填充数据填充训练集和测试集,以达到更好的泛化性。

2024-08-10 22:58:41 631

原创 特征工程练手(一):特征理解

特征工程是数据科学中的关键步骤,它基于领域知识从原始数据中提取特征,以提升机器学习模型的性能。数据是特征工程的基础,没有数据就不可能提取特征。结构化数据与非结构化数据定量数据与定性数据数据的4个等级数据可视化。

2024-08-08 18:01:57 780

原创 深度学习每周学习总结N6:使用Word2vec实现文本分类

之前有学习过文本预处理的环节,对文本处理的主要方式有以下三种:1:词袋模型(one-hot编码)2:TF-IDF3:Word2Vec(词向量(Word Embedding) 以及Word2vec(Word Embedding 的方法之一))详细介绍及中英文分词详见pytorch文本分类(一):文本预处理上上上上期主要介绍Embedding,及EmbeddingBag 使用示例(对词索引向量转化为词嵌入向量) ,上上上期主要介绍:应用三种模型的英文分类。

2024-08-08 00:11:19 860

原创 机器学习练手(六):机器学习算法实践实战

本文为和鲸python 机器学习原理与实践·闯关训练营资料整理而来,加入了自己的理解(by GPT4o),多年风控引擎研发及金融模型开发经验,现任某公司风控研发工程师,对数据分析、金融模型开发、风控引擎研发具有丰富经验。

2024-08-04 12:43:13 970

原创 机器学习练手(五):基于XGBoost 的葡萄酒分类和糖尿病指标预测

本文为和鲸python 可视化探索训练营资料整理而来,加入了自己的理解(by GPT4o),多年风控引擎研发及金融模型开发经验,现任某公司风控研发工程师,对数据分析、金融模型开发、风控引擎研发具有丰富经验。前一关卡中我们学习了SVM支持向量机模型的搭建,其中的核函数可以说是其中的重点,其通过扩展维度空间的方式,使得不可分的数据变成可分的原因就是核函数。下面我们开始学习比赛中的大杀器 -XGBoost。

2024-08-04 10:27:35 725

原创 机器学习练手(四):基于SVM 的肥胖风险分类

SVM支持向量机采用扩展维度空间的方式进行分类,从而避免了之前逻辑回归的二维空间内的问题(线性不可分)。SVM在扩展维度空间后,即当前数据线性可分,通过计算间隔最大化的分离超平面将数据分开,其对未知数据的预测性是最强的。

2024-08-04 10:16:24 945

原创 机器学习练手(三):基于决策树的iris 多分类和波士顿房价预测

通过可视化决策树,可以看出正如前面介绍的那样,分类决策树是if-then的集合,最终得到对应的分类结果。

2024-08-03 19:13:01 851

原创 机器学习练手(二):基于KMeans的股票分类

KMeans在确定分类个数计算时,无法使用object类型的数据,应当提前删除或对特征进行one-hot处理。

2024-08-03 18:20:15 1137

原创 机器学习练手(一):逻辑回归之乳腺癌分类、二手车售价

关于机器学习算法的线性回归,如果是二分类且分类标签是0和1,预测结果默认是为1的概率,可以这样理解吗是的,对于二分类问题,如果使用线性回归算法(具体来说是逻辑回归),并且分类标签是0和1,那么预测结果可以理解为属于类别1的概率。具体来说,在逻辑回归中,模型通过一个线性函数(线性回归)计算出一个实数值,然后通过一个sigmoid函数(或逻辑函数)将该值转换为一个介于0和1之间的概率。这个概率可以解释为输入样本属于类别1的概率。

2024-08-03 12:01:14 1040

原创 python 可视化探索(四):电商数据可视化案例

用户画像是指根据用户的属性、行为、需求等信息而抽象出的一个标签化的用户模型。它是对用户信息进行标签化的过程,以方便计算机处理。

2024-08-02 01:47:43 291

原创 python 可视化探索(三):Seaborn数据可视化

Seaborn是一个基于Python的数据可视化库,它基于Matplotlib库进行构建,提供了更高级别的界面和更好看的默认风格。Seaborn旨在使可视化成为探索和理解数据的核心部分,其提供了面向数据集的API,可以方便地在相同变量的不同视觉表示之间切换,以便更好地理解数据集。

2024-08-01 11:50:53 606

原创 Mysql 工作常用代码总结

【代码】Mysql 工作常用代码总结。

2024-07-31 17:29:42 160

原创 python 可视化探索(二):高级图表与组合图表

总结:本文为和鲸python 可视化探索训练营资料整理而来,加入了自己的理解(by GPT4o)原作者:作者:大话数据分析,知乎、公众号【大话数据分析】主理人,5年数据分析经验,前蚂蚁金服数据运营,现京东经营分析师。

2024-07-29 16:27:42 988

原创 python 可视化探索(一):基础图表

Matplotlib是一个Python 2D绘图库,它可以在各种平台上以各种硬拷贝格式和交互式环境生成出具有出版品质的图形,它是Python中最常用的可视化工具之一,功能非常强大,可以通过调用函数轻松方便地绘制数据分析中常见的各种图像,比如折线图、条形图、柱状图、散点图、饼图等。

2024-07-29 00:27:38 541

原创 深度学习每周学习总结N5:调用Gensim库训练Word2Vec模型

之前有学习过文本预处理的环节,对文本处理的主要方式有以下三种:1:词袋模型(one-hot编码)2:TF-IDF3:Word2Vec(词向量(Word Embedding) 以及Word2vec(Word Embedding 的方法之一))详细介绍及中英文分词详见pytorch文本分类(一):文本预处理上上上期主要介绍Embedding,及EmbeddingBag 使用示例(对词索引向量转化为词嵌入向量) ,上上期主要介绍:应用三种模型的英文分类。

2024-07-26 15:05:42 972

原创 大模型学习应用 1:用 itrex 创新高效实现 LLM 的部署和微调

用 itrex 创新高效实现 LLM 的部署和微调 - 项目作业。

2024-07-24 17:55:13 916 4

原创 深度学习每周学习总结N4:中文文本分类-Pytorch实现(基本分类(熟悉流程)、textCNN分类(通用模型)、Bert分类(模型进阶))

之前有学习过文本预处理的环节,对文本处理的主要方式有以下三种:1:词袋模型(one-hot编码)2:TF-IDF3:Word2Vec(词向量(Word Embedding) 以及Word2vec(Word Embedding 的方法之一))详细介绍及中英文分词详见pytorch文本分类(一):文本预处理上上期主要介绍Embedding,及EmbeddingBag 使用示例(对词索引向量转化为词嵌入向量) ,上期主要介绍:应用三种模型的英文分类。

2024-07-19 17:12:23 818

原创 深度学习每周学习总结N3(文本分类实战:基本分类(熟悉流程)、textCNN分类(通用模型)、Bert分类(模型进阶))

之前有学习过文本预处理的环节,对文本处理的主要方式有以下三种:1:词袋模型(one-hot编码)2:TF-IDF3:Word2Vec(词向量(Word Embedding) 以及Word2vec(Word Embedding 的方法之一))详细介绍及中英文分词详见pytorch文本分类(一):文本预处理上期主要介绍Embedding,及EmbeddingBag 使用示例(对词索引向量转化为词嵌入向量)

2024-07-05 21:46:18 1239 2

原创 深度学习每周学习总结N2(词嵌入部分:Embeddingbag与Embedding详解)

之前有学习过文本预处理的环节,对文本处理的主要方式有以下三种:1:词袋模型(one-hot编码)2:TF-IDF3:Word2Vec(词向量)详细介绍及中英文分词详见pytorch文本分类(一):文本预处理上期主要介绍one-hot编码示例流程(词汇表 -> 文本序列 -> One-hot编码)手撕模式 + 直接调用现成的词袋模型(CountVectorizer)本期将简单介绍一下TF-IDF 与 one-hot编码的区别与联系,并主要介绍词嵌入(Word Embedding),以及(待补充)

2024-06-20 18:45:43 913

原创 深度学习每周学习总结N1(one-hot 编码案例)

之前有学习过文本预处理的环节,对文本处理的主要方式有以下三种:1:词袋模型(one-hot编码)2:TF-IDF3:Word2Vec(词向量)详细介绍及中英文分词详见pytorch文本分类(一):文本预处理本期主要介绍one-hot编码示例流程(词汇表 -> 文本序列 -> One-hot编码)手撕模式 + 直接调用现成的词袋模型(CountVectorizer)

2024-06-12 23:52:02 1279

原创 深度学习每周学习总结P10(车牌识别)

数据导入及处理部分:本次数据导入没有使用torchvision自带的数据集,需要将原始数据进行处理包括数据导入,查看数据分类情况,定义transforms,进行数据类型转换等操作。划分数据集:我们多是使用datasets.ImageFolder函数直接导入已经分类好的数据集形成Dataset,然后使用DataLoader加载Dataset,但是如果对无法分类的数据集,本次自定义了一个类,方便我们将图像和标签数据加载到 PyTorch 的数据管道中,便于后续的模型训练和验证。

2024-06-07 21:46:34 4602 1

原创 力扣hot 100:49. 字母异位词分组(python & C++)

输入: strs = [“eat”, “tea”, “tan”, “ate”, “nat”, “bat”]输出: [[“bat”],[“nat”,“tan”],[“ate”,“eat”,“tea”]]这个方法用于将一组字符串按字母异位词(anagram)分组。该方法用于将一组字符串按字母异位词(anagram)分组。我们来详细跟踪代码执行的每一步,以理解它是如何处理输入。让我们详细跟踪代码执行的每一步,以理解它是如何处理输入。,将每个值(字符串列表)添加到。的类,类中包含一个名为。的类,类中包含一个名为。

2024-05-27 22:34:38 1183

原创 深度学习每周学习总结P9(YOLOv5-Backbone模块实现)

数据导入及处理部分:本次数据导入没有使用torchvision自带的数据集,需要将原始数据进行处理包括数据导入,查看数据分类情况,定义transforms,进行数据类型转换等操作。划分数据集:划定训练集测试集后,再使用torch.utils.data中的DataLoader()分别加载上一步处理好的训练及测试数据,查看批处理维度.本次学习的是yolov5中BackBone模块的实现。

2024-05-23 22:17:15 756

原创 pytorch文本分类(四)模型框架(模型训练与验证)

本文是在原本闯关训练的基础上总结得来,加入了自己的理解以及疑问解答(by GPT4)选定了模型框架后,需要对神经网络模型进行训练,主要有3个步骤:接下来详细介绍这3个步骤。构建模型结构,主要有神经网络结构设计、激活函数的选择、模型权重如何初始化、网络层是否批标准化、正则化策略的设定。由于在关卡四中介绍了神经网络结构设计和激活函数的选择,这里不过多介绍,下面简单介绍下权重初始化,批标准化和正则化策略。权重初始化权重参数初始化可以加速模型收敛速度,影响模型结果。常用的初始化方法有:批标准化batch n

2024-05-20 11:53:12 921

原创 深度学习每周学习总结P8(YOLOv5-C3模块实现)

数据导入及处理部分:本次数据导入没有使用torchvision自带的数据集,需要将原始数据进行处理包括数据导入,查看数据分类情况,定义transforms,进行数据类型转换等操作。划分数据集:划定训练集测试集后,再使用torch.utils.data中的DataLoader()分别加载上一步处理好的训练及测试数据,查看批处理维度.本次学习的是yolov5中c3模块的实现。

2024-05-16 23:26:03 660

原创 SQL进阶(六):通关题:制作一个活动日历

就是求当月的最后一天是周几,周六算1天,周日算两天SELECT(CASEELSE 0FROMGROUP BYyear_monthSELECTFROM[(5,)]a4 = '5' # 在 '' 中填入你的结果,如 a4 = '5' 代表有个 5 个周末(周六,周日分开计算,例如 2个周六 和 3个周日 = 5个周末)

2024-05-15 23:43:08 664 1

原创 深度学习每周学习总结P7(咖啡豆识别)

数据导入及处理部分:本次数据导入没有使用torchvision自带的数据集,需要将原始数据进行处理包括数据导入,查看数据分类情况,定义transforms,进行数据类型转换等操作。划分数据集:划定训练集测试集后,再使用torch.utils.data中的DataLoader()分别加载上一步处理好的训练及测试数据,查看批处理维度.模型构建部分:有两个部分一个初始化部分(init())列出了网络结构的所有层,比如卷积层池化层等。第二个部分是前向传播部分,定义了数据在各层的处理过程。

2024-05-03 21:51:01 930

原创 深度学习每周学习总结P6(人脸识别)

数据导入及处理部分:本次数据导入没有使用torchvision自带的数据集,需要将原始数据进行处理包括数据导入,数据类型转换。划分数据集:划定训练集测试集后,再使用torch.utils.data中的DataLoader()加载数据.模型构建部分:有两个部分一个初始化部分(init())列出了网络结构的所有层,比如卷积层池化层等。第二个部分是前向传播部分,定义了数据在各层的处理过程。注意:本次需要学习如何调用官方模型以及自定义VGG-16模型。

2024-04-26 21:35:54 997

原创 深度学习每周学习总结P5(运动鞋识别)

数据导入及处理部分:本次数据导入没有使用torchvision自带的数据集,需要将原始数据进行处理包括数据导入,数据类型转换。划分数据集:划定训练集测试集后,再使用torch.utils.data中的DataLoader()加载数据.注意:与之前不同的是,本次的数据集是已经划分好的。模型构建部分:有两个部分一个初始化部分(init())列出了网络结构的所有层,比如卷积层池化层等。第二个部分是前向传播部分,定义了数据在各层的处理过程。

2024-04-19 21:52:04 1047

原创 深度学习每周学习总结P4(猴痘识别)

数据导入部分:本次数据导入没有使用torchvision自带的数据集,需要将原始数据进行处理包括数据导入,数据类型转换。划分数据集:划定训练集测试集后,再使用torch.utils.data中的DataLoader()加载数据模型构建部分:有两个部分一个初始化部分(init())列出了网络结构的所有层,比如卷积层池化层等。第二个部分是前向传播部分,定义了数据在各层的处理过程。

2024-04-11 22:06:38 748

原创 深度学习每周学习总结P3(天气识别)

数据导入部分:本次数据导入没有使用torchvision自带的数据集,需要将原始数据进行处理包括数据导入,数据类型转换,划定训练集测试集后,再使用torch.utils.data中的DataLoader()加载数据模型构建部分:有两个部分一个初始化部分(init())列出了网络结构的所有层,比如卷积层池化层等。第二个部分是前向传播部分,定义了数据在各层的处理过程。设置超参数:在这之前需要定义损失函数,学习率,以及根据学习率定义优化器(例如SGD随机梯度下降),用来在训练中更新参数,最小化损失函数。

2024-03-28 23:20:43 1412 1

原创 DataFrame:postgresql数据下载及上传

【代码】DataFrame:postgresql数据下载及上传。

2024-03-22 10:47:02 433

原创 力扣hot 100:1. 两数之和(python & C++)

给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。解释:因为 nums[0] + nums[1] == 9 ,返回 [0, 1]。你可以假设每种输入只会对应一个答案。输入:nums = [2,7,11,15], target = 9。输入:nums = [3,2,4], target = 6。进阶:你可以想出一个时间复杂度小于 O(n2) 的算法吗?输入:nums = [3,3], target = 6。

2024-03-22 00:47:10 403

原创 深度学习每周学习总结P2(CIFAR10彩色图片分类)

数据导入部分:数据导入使用了torchvision自带的数据集,获取到数据后需要使用torch.utils.data中的DataLoader()加载数据模型构建部分:有两个部分一个初始化部分(init())列出了网络结构的所有层,比如卷积层池化层等。第二个部分是前向传播部分,定义了数据在各层的处理过程。训练前的准备:在这之前需要定义损失函数,学习率,以及根据学习率定义优化器(例如SGD随机梯度下降),用来在训练中更新参数,最小化损失函数。

2024-03-20 16:45:04 1070

原创 GeoPy1.2 地理数据处理入门(数据读取及展示)

高校教师,中科院 GIS 博士本文为原文章基础上,加上自己以及GPT4.0的总结整理而来提取码:7cbe–来自百度网盘超级会员V5的分享。

2024-03-18 16:00:40 1212

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除