LucyFang2020-CSDN博客

原创第九章：分布式训练

随着数据量的不断增加，若只使用单一模型对所有数据进行训练，那么模型运行的速度过慢，而且结果不是很精准，这就需要想其他方法来解决，分布式处理就是一个比较好的方案。

2024-01-25 18:52:15 366

原创第十一章：大模型之Adaptation

我认为Adaptation是在模型确定好的情况下，采用不同的方法进行适应得到更好的效果，在调整的过程中，各种参数要适当，否则对结果的影响很大。

2024-01-23 19:58:40 429

原创第五章：大模型的数据

现产生的数据多种多样，每个平台、每家公司都有大量的数据集，如何将数据的危害降低，从中获得更有价值的信息是非常有必要的。多了解数据集的用途，以及不同数据集的差距。

2024-01-21 17:15:29 977

原创 DW 第三章：大模型的有害性-上

随着技术的更新迭代，大模型的应用越来越广，面对一些危害性，提前做好心理准备和应对措施，可以很大程度上降低这些伤害。大模型上的数据越来越完善，预测的结果也会越来越准确。

2024-01-20 10:42:58 929

原创 DW大模型理论基础第二章大模型的能力

大模型的能力需要的很多，以上是一些模型与数据集的介绍，本次学习的目标是对大模型有一定的了解，所以没有对里面的公式进行深挖，随着知识的不断积累，才会更好地认识到大模型的魅力。

2024-01-17 10:50:34 412

语言模型（LM）的经典定义是⼀种对令牌序列(token)的概率分布。从数学上讲，语⾔模型是⼀个⾮常简单⽽⼜美妙的对象。但是这种简单是具有欺骗性的：赋予所有序列以（有意义的）概率的能力，该能力要求语⾔模型具有非凡的（但是隐含的）语⾔能⼒和世界知识。自回归语言模型(Autoregressive languagemodels)的特点是它可以利⽤例如前馈神经⽹络等⽅法有效计算出每个条件概率分布p(xi|x1:i-1)。单⼀的⼤型语⾔模型是⼀个万事通（也是⼀⽆所⻓）。

2024-01-15 17:56:42 388

原创特征工程优化

特征工程是将数据转换为能够更好地表示潜在问题的特征，从而提高机器学习性能的过程。使用场景：任何阶段得到数据。优点：更好地表示潜在问题，提高性能。缺点：特征找的不准备导致模型效果不好。特征工程复杂，需对数据十分了解，先总体分析再逐个分析特征比较节约时间。对单个特征和多个特征进行分析，然后从中找到不同特征之间或与目标特征的相关性，再进行筛选，得到的有效特征的概率会大一些。分析完后需对每个特征进行处理，如缺失值和异常值处理、归一化处理等等。总之，如果特征工程处理的很好，模型结果也会相对好一些。

2023-10-27 20:45:42 123

原创模型调参优化

参考链接：https://www.bilibili.com/video/BV1xw411q7cH/?

2023-10-27 20:15:13 215

原创【无标题】

参考链接：https://datawhaler.feishu.cn/docx/C6jvdEwsSo3JMwxFj1FcTEqtn1g。

2023-10-22 16:53:37 137

原创 DW 2023年1月Free Excel 第十次打卡 Excel看板

excel 看板

2023-01-30 15:25:24 480

原创 DW 2023年1月Free Excel 第九次打卡 Excel数据透视

excel 数据透视

2023-01-29 17:37:26 446

原创 DW 2023年1月Free Excel 第八次打卡 Excel数据可视化

excel 可视化

2023-01-28 17:13:19 695

原创 DW 2023年1月Free Excel 第七次打卡动态函数

动态函数

2023-01-27 20:09:17 606

原创 DW 2023年1月Free Excel 第六次打卡查找函数

VLOOKUP函数

2023-01-19 15:55:00 1588

原创 DW 2023年1月Free Excel 第五次打卡文本函数

文本函数

2023-01-19 15:06:17 1659

原创 DW 2023年1月Free Excel 第四次打卡逻辑判断函数

excel 函数操作方法及应用

2023-01-18 10:03:47 744

原创 2023年DataWhale 1月Free Excel 第三次打卡

DW 1月第三次打卡

2023-01-17 19:52:35 401

原创 2023年1月Free Excel 第二次打卡

excel 快捷键

2023-01-16 20:19:35 621

原创 2023年1月Free Excel 打卡

excel 打卡

2023-01-15 20:40:39 594

原创 PPT制作——合并形状

PPT制作：合并形状

2023-01-14 18:13:57 401

原创 PPT制作——快捷键

PPT制作快捷键

2023-01-13 21:11:16 434

原创 PPT多媒体课件制作一

PPT制作一默认工具

2023-01-11 20:08:46 128

原创【DW10月-时间序列】Task01

文章目录一、R语言基础二、统计与时间序列分析基础一、R语言基础R语言跟Python类似用于数据分析和模型建立。主要的函数有matrix()、dim()、ts()、plot()、par()等。matrix()：创建矩阵。dim()：创建矩阵。ts()：将一个向量或矩阵转成一个一元或多元的时间序列（ts）对象。plot()：绘制图像。par()：绘制多幅图画。二、统计与时间序列分析基础个体、总体、偏差、方差、正态分布、卡方分布、t分布、z分布、f分布自行了解。...

2021-10-12 10:17:52 125

原创【DataWhale-集成学习】Task04 分类问题

文章目录一、什么是分类问题二、如何解决分类问题三、分类模型有哪些四、作业一、什么是分类问题在分类问题中，因变量是离散型变量，如：是否患癌症，西瓜是好瓜还是坏瓜等。二、如何解决分类问题首先，拿到数据需要确定属于什么性质类的问题，回归还是分类？然后，探索性分析不同特征之间的特点，相关性等等。接着，了解回归模型有哪些，以及他们之间的使用场景，优缺点等等。最后，用分类模型建立模型。三、分类模型有哪些贝叶斯、决策树、逻辑回归、XGBoost等四、作业...

2021-09-25 22:10:41 367

原创【DataWhale-集成学习】Task03 偏差和方差

文章目录1、偏差与方差基本概念2、如何减少偏差和方差2.1 特征提取2.2 正则化2.3 降维2.4 使用不同模型进行训练3、作业1、偏差与方差基本概念模型的偏差是指：为了选择一个简单的模型去估计真实函数所带入的误差。模型的方差是指：用不同的数据集去估计 ???? 时，估计函数的改变量。一般来说，模型的复杂度越高，f的方差就会越大，模型的偏差会越少，我们要找到一个方差–偏差的权衡，使得测试均方误差最小。2、如何减少偏差和方差2.1 特征提取训练误差修正交叉验证最优子集选择向前逐步选择

2021-09-20 16:01:37 170

原创【DataWhale-集成学习】Task02 回归问题

文章目录1、什么是回归问题2、如何解决回归问题3、代码示例3.1 导入包及数据3.2 探索性分析3.3 回归模型3.3.1 线性回归3.3.2 多项式回归3.3.3 回归树3.3.4 支持向量机回归(SVR)3.4 模型建立与参数调整4、总结1、什么是回归问题回归问题是针对因变量是连续型变量的问题，比如：房价，体重等等。与之对立的是分类问题，分类问题是针对因变量是离散型变量的问题，如：是否存活，是否违约等等。2、如何解决回归问题首先，拿到数据需要确定属于什么性质类的问题，回归还是分类？然后，探索

2021-09-19 11:06:04 148

原创【DataWhale-集成学习】Task01 数学基础

文章目录第一章高等数学1.1 函数1.2 导数1.3 多元函数1.4 函数的极值问题第二章概率论与数理统计2.1 随机事件与概率2.2 全概率公式和贝叶斯公式2.3 随机变量第三章随机过程第一章高等数学在高等数学这一章节中，主要要掌握函数、导数、多元函数、函数的极值问题。1.1 函数函数就是已知数X与未知数Y能够一一对应。可以一对一、多对一，但不存在多对多。1.2 导数导数可以说是在某一点的变化率，导数大于0，在增加，导数小于0，在降低。1.3 多元函数多元函数表现在不同的平面，比较

2021-09-15 19:36:04 179

原创金融风控训练营Task5 模型融合学习笔记

参考链接：https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.20850282.J_3678908510.2.4bcd4d57mbRPGK&postId=170952https文章目录一、学习目标二、内容介绍2.1 平均2.2 投票2.3 综合2.4 stacking2.5 blending2.6 boosting/bagging三、stacking\blending详解四、代码示例4.1 平均4.2 投票4.3 Stacking4.4

2021-09-15 17:48:58 141

原创金融风控训练营Task4 建模与调参学习笔记

参考链接：https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.20850282.J_3678908510.8.4bcd4d572bJoDp&postId=170951文章目录一、学习目标二、学习内容2.1逻辑回归模型2.2树模型2.3集成模型2.4模型对比与性能评估2.5模型调参3 模型对比与性能评估3.1 逻辑回归一、学习目标学习在金融分控领域常用的机器学习模型。学习机器学习模型的建模过程与调参流程。二、学习内容2.1逻辑

2021-09-13 12:18:35 155

原创金融风控训练营Task3 特征工程学习笔记

参考链接：https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.20850282.J_3678908510.6.4bcd4d574ifL9X&postId=206633文章目录一、学习知识点概要二、学习内容2.1 学习目标2.2 内容介绍2.3 代码实现2.3.1 导入包并读取数据2.3.2特征预处理2.3.3 异常值处理2.3.4 数据分桶2.3.5 特征交互2.3.6 特征编码2.3.7 特征选择三、学习问题与解答四、学习思考与总结一、

2021-09-09 13:01:30 140

原创金融风控训练营Task2数据分析学习笔记

参考链接：https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.20850282.J_3678908510.4.4bcd4d57PnBPSN&postId=170949https://github.com/datawhalechina/team-learning-data-mining/blob/master/FinancialRiskControl/Task2%20%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90.m

2021-09-07 13:11:09 185

原创金融风控训练营Task1学习笔记

参考链接：https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.20850282.J_3678908510.2.30a54d57TxIeDz&postId=170948https文章目录一、学习知识点概要二、学习内容2.1 学习目标2.2 了解赛题2.2.1 赛题概况2.2.2 数据概况2.2.3 预测指标2.2.4赛题流程2.3 代码示例2.3.1 数据读取2.3.2 分类指标评价计算示例三、学习问题与解答四、学习思考与总结一、学习知识点

2021-09-05 17:19:29 230

原创 Task01数据加载与探索性数据分析

文章目录第一节数据载入及初步观察1.1 导入数据库与数据集1.2 逐块读取数据集并修改表头1.3 初步观察数据后另存第二节 pandas基础2.1 DateFrame2.2 Series第三节探索性数据分析3.1 综合排序3.2 计算船上最大的家族的人数3.3 describe()函数的应用第一节数据载入及初步观察1.1 导入数据库与数据集import numpy as npimport pandas as pdtrain=pd.read_csv('train.csv')test=pd.

2021-08-15 21:34:15 100

原创【DataWhale-李宏毅深度学习】Task07总结

文章目录一、前言二、总结2.1 初识机器学习2.2 回归2.3 误差和梯度下降2.3.1 误差2.3.2 梯度下降2.4 深度学习介绍2.5 网络设计的优化2.6 卷积神经网络一、前言经过半个月的学习，我收获了很多，因为自己的知识不是很丰富，平时还要上班，所以我对自己的定位就是尽可能多的了解深度学习的知识，看视频和阅读文档，没有进行拓展，也没用用代码进行验证，这是非常不足的。还需要多多加强深度拓展和代码方面的知识。以下是我对自己最近半个月的学习总结。二、总结2.1 初识机器学习机器学习是让机器有自

2021-07-25 17:19:11 307

原创【DataWhale-李宏毅深度学习】Task06卷积神经网络

参考链接：https://datawhalechina.github.io/leeml-notes/#/chapter21/chapter21文章目录一、为什么要使用卷积神经网络（CNN）一、为什么要使用卷积神经网络（CNN）CNN常常被用在影像处理上，比如说你想要做影像的分类，就是training一个neural network,input一张图片，然后把这张图片表示成里面的pixel，也就是很长很长的vector。output就是(假如你有1000个类别，output就是1000个dimensi

2021-07-22 21:08:32 394

原创【DataWhale-李宏毅深度学习】Task05网络设计的技巧

参考链接：https://datawhalechina.github.io/leeml-notes视频连接：https文章目录一、优化损失函数失败的原因二、Tips for training: Batch and Momentum 训练建议：分批和动力一、优化损失函数失败的原因优化（Optimization）损失函数失败的原因主要有2种：1.局部最小值 (local minima)，无路可走。2.鞍点 (saddle point)，还可以继续梯度下降。最好先知道损失函数的形状，才能更好的解决上

2021-07-19 23:15:38 295 2

原创【DataWhale-李宏毅深度学习】Task04深度学习介绍和反向传播机制

参考链接：https://datawhalechina.github.io/leeml-notes文章目录一、深度学习的发展趋势二、深度学习的三个步骤2.1 神经网络（Neural network）2.2 模型评估（Goodness of function）2.3 选择最优函数（Pick best function）三、反向传播四、总结一、深度学习的发展趋势回顾一下深度学习（deep learning）的历史：1958: Perceptron (linear model)1969: Percep

2021-07-15 15:20:04 178

原创【DadaWhale-李宏毅深度学习】Task03误差和梯度下降

参考链接：https://github.com/datawhalechina/leeml-notes文章目录一、误差的来源一、误差的来源从上图可知, Average\ ErrorAverage Error 随着模型复杂增加呈指数上升趋势。更复杂的模型并不能给测试集带来更好的效果，而这些 ErrorError 的主要有两个来源，分别是 biasbias 和 variancevariance 。然而 biasbias 和 variancevariance 是什么？可以查看机器学习中的Bias(偏差

2021-07-15 14:46:48 178

原创【DW-李宏毅深度学习】Task02回归

一亿元大幅

2021-07-14 10:52:11 133

原创 Task01 最浅显易懂的 PyTorch 深度学习入门

机器学习介绍一、名词理解人工智慧。在1950年代，人工智慧(AI)、Artificial Intelligence这个词汇就有了。AI意味着一个人类长远以来的目标，希望机器可以跟人一样的聪明。机器学习。1980年代以后，开始出现了机器学习方法——让机器具有学习的能力的一种方法。机器学习跟人工智慧之间的关系。人工智慧是我们想要达成的目标，而机器学习是想要达成目标的手段，希望机器通过学习方式，它跟人一样聪明。深度学习和机器学习的关系。深度学习就是机器学习的其中一种方法。机器怎样表现的很有智慧，1.通过

2021-07-12 20:12:53 109

空空如也

空空如也