![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
AI
兜兜王
这个作者很懒,什么都没留下…
展开
-
重新缩放数据理解
2、然后求取平均值,将为空的数据设置为平均值。原创 2024-03-20 21:50:59 · 256 阅读 · 1 评论 -
特征工程(文本应用)
from sklearn.preprocessing import LabelEncoderimport pandas as pdimport seaborn as snstitanic = sns.load_dataset("titanic")em_town = titanic["embark_town"]em_town .head(10)print(em_town)enc = LabelEncoder()new_label = pd.Series(enc.fit_transform原创 2024-03-13 21:06:21 · 362 阅读 · 0 评论 -
均值替换缺失值练习
注意:NaN为缺失值。原创 2024-03-13 20:36:23 · 354 阅读 · 0 评论 -
关于数据预处理的重要性
均值带入:用可用数值的均值或中值替换缺失值,缺点是会引入偏差。回归带入:用回归函数得到预测值替换缺失值,缺点会过度拟合模型。仅一部分实例有值的特性,以及没有任何特征值的实例都被视为缺失数据。一个特征丢失了超过5%~10%的值,被认为是缺失数据。远离平均值的值,异常值可以是全局异常值或局部异常值。总结:缺失值最好是直接删除或标记为未分类。主要是为了计算机能够准确的理解数据。缺失值实例应该被删除,避免引入偏差。局部异常值:远离该特征的子组的值。全局异常值:远离整组特征的值。分配新值:均值带入、回归带入。原创 2024-03-12 21:55:10 · 429 阅读 · 0 评论 -
数据集、特征矩阵、目标矩阵(代码理解)
然后我们开始创建一个特征矩阵(说明:drop函数加axis=1参数是删除掉矩阵中species列的数据)开始导入数据集(注意:seaborn 就是有这个iris 数据集,从在线存储库加载而来)注意:特征矩阵包含除目标特征之外的所有特征值,将每个实例表示为二维矩阵。首先需要安装Seaborn库,pip install seaborn。打印出来的(150,)代表获得一维的且长度等于实例数,也就是目标矩阵。注意:目标矩阵包含所有条目的目标特征的值,将其表示为一维矩阵。以上意思是实例总量150,特征总量4。原创 2024-03-11 22:15:52 · 472 阅读 · 0 评论 -
生成式模型实战—小小案例(python)
result = text_generator("[CLS]空山新雨后", max_length=50, do_sample=True)实战之前,环境需要已经搭建好。如果环境没有搭建好,可以参考。Step1. 安装类库 transformers。注意,跑这个的时候如果报错,可以尝试加个梯子。print('输出', result)接下来,我们今天的学习之旅~如果想换成其他模型,可以 到。每天进步一点点~ 加油~Step2. 代码敬上。原创 2024-03-06 21:14:50 · 410 阅读 · 1 评论 -
PyTorch2.0 环境搭建详细步骤(Nvidia显卡)
Step2、下载CUDA 11.7 或者11.8(我自己用的这个)也行,稍后我会贴出来版本匹配对应表。Step4、安装anconda(尽量使用这种方式安装python环境,坑会少一点)Step6、执行命令安装PyTorch。Step 1 、查看显卡驱动版本。Step3、下载CUDNN。Step5、配置环境变量。原创 2024-03-05 21:17:04 · 644 阅读 · 0 评论