Datawhale夏令营机器学习

最新推荐文章于 2024-08-25 10:42:58 发布

2201_75956817

最新推荐文章于 2024-08-25 10:42:58 发布

阅读量915

点赞数 25

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/2201_75956817/article/details/140253592

版权

#ai夏令营#Datawhale

任务实现思路

一、数据准备

理解数据
- 仔细阅读数据字段的定义和含义，确保对每个字段有清晰的理解。
- 根据理解，确定哪些字段是输入特征，哪些字段用来预测目标（即Label）。
数据清洗
- 检查数据的完整性，填补或删除缺失值。
- 处理异常值和重复数据。
- 确保数据的一致性和正确性，特别是与预测目标直接相关的字段如DC50和Dmax。
数据增强
- 如果数据集较小，可以采用数据增强的方法来扩展数据集。
- 使用化学信息学数据库或文献等外部数据源，获取更多相关数据，并结合现有数据进行补充。
特征工程
- 数值特征处理：如标准化或归一化处理DC50、Dmax等数值特征。
- 分类特征编码：对字符串类型的特征，如Uniprot、Target等，进行编码处理。
- 复杂特征处理：对于Smiles等复杂分子结构特征，可以考虑使用分子指纹（molecular fingerprint）或其他分子表示方法转化为数值特征。
数据划分
- 将数据集分为训练集、验证集和测试集。例如：70%用于训练，20%用于验证，10%用于测试。
- 确保划分后的数据集能够代表整个数据集的分布情况。

二、模型构建

选择算法
- 根据任务特点选择适合的机器学习算法，如逻辑回归、支持向量机（SVM）、随机森林、XGBoost等。
- 对于更复杂的数据和模型需求，可以考虑深度学习模型，如卷积神经网络（CNN）处理分子结构数据，或循环神经网络（RNN）处理序列数据。
模型训练
- 使用训练集训练模型，调整模型参数以提高模型性能。
- 利用交叉验证（cross-validation）确保模型在不同数据子集上的性能一致。
模型评估
- 在验证集上评估模型性能，使用准确率、精确率、召回率和F1分数等指标进行综合评价。
- 根据验证结果调整模型参数，进行模型优化。

三、模型优化与调优

超参数调优
- 使用网格搜索（Grid Search）或随机搜索（Random Search）等方法，寻找最佳模型超参数组合。
- 利用交叉验证，确保调优过程中的模型稳定性和泛化能力。
特征选择
- 通过特征重要性分析或前向选择、后向消除等方法，选择对预测任务最重要的特征，提高模型性能和训练效率。
集成学习
- 采用集成学习方法，如袋装（Bagging）、提升（Boosting）等，组合多个基模型以获得更强的预测能力。

四、模型最终测试与验证

在测试集上评估模型
- 使用留出的测试集评估最终模型的性能，确保模型没有过拟合，能够泛化到未见过的数据。
验证结果解释
- 分析模型的预测结果，理解错误预测的原因和模型的局限性。
- 与领域专家讨论模型结果，确保结果在实际科研和应用中具有可解释性和实用性。

五、数据搜索与扩充（可选）

收集外部数据
- 使用PubChem、ChEMBL、Uniprot等外部化学和生物数据库，搜集更多与PROTACs相关的数据。
- 通过API或爬虫等技术手段，自动化数据收集过程。
数据处理与融合
- 清洗和处理收集到的额外数据，确保格式和当前数据集一致。
- 将外部数据与现有数据进行融合，扩大数据量，提高模型泛化能力。

具体实施步骤

数据加载和预处理：
- 读取并清洗数据，处理缺失值和异常值。
- 进行特征工程和数据标准化。
构建和训练模型：
- 选用多种模型进行训练（如逻辑回归、随机森林等）。
- 采用交叉验证和超参数调优，优化模型性能。
模型评估和验证：
- 在验证集上评估模型，调整模型参数。
- 在测试集上验证最终模型，确保其泛化能力。
数据扩充和增强：
- 搜集外部数据，进行清洗和处理。
- 将外部数据与现有数据融合，优化模型训练数据集。
最终报告和总结：
- 总结方法和结果，提出改进建议。
- 撰写详细报告，展示模型性能和预测效果。

数据清洗步骤

一、数据理解和初探

初步检查
- 查看数据集的规模和字段类型，包括数值型、分类型和文本型等。
- 使用统计描述（如均值、中位数、标准差等）和可视化方法（如直方图、箱线图等）来初步了解数据的分布和特征。

二、处理缺失值

识别缺失值
- 检查每个字段中是否存在缺失值，使用库如Pandas的isnull()或isna()方法。
- 可视化缺失值分布，如使用缺失值矩阵图（Missingno库）或热图（Seaborn库）。
处理策略
- 删除缺失值：如果缺失值比较少，可以直接删除含缺失值的数据行。
- 填充缺失值：对于数值型数据，可以使用均值、中位数、众数或插值法填充缺失值。
- 对于分类型数据，可以使用最常见的类别进行填充。
- 对于时间序列数据，可以使用前后数据的均值进行插值。

     data.dropna(inplace=True)

     data['column_name'].fillna(data['column_name'].mean(), inplace=True)

     data['category_column'].fillna(data['category_column'].mode()[0], inplace=True)

     data['time_series_column'].interpolate(method='linear', inplace=True)

三、处理异常值

识别异常值
- 使用统计方法（如IQR，箱线图）和可视化技术（如散点图、箱线图）来识别异常值。

     Q1 = data['column_name'].quantile(0.25)
     Q3 = data['column_name'].quantile(0.75)
     IQR = Q3 - Q1
     lower_bound = Q1 - 1.5 * IQR
     upper_bound = Q3 + 1.5 * IQR
     outliers = data[(data['column_name'] < lower_bound) | (data

处理策略
- 删除异常值：直接删除异常值所在的行。

     data = data[(data['column_name'] >= lower_bound) & (data['column_name'] <= upper_bound)]

替换异常值：用其他合理值替换，如上下限值或其他统计值。

     data['column_name'] = np.where(data['column_name'] < lower_bound, lower_bound, data['column_name'])
     data['column_name'] = np.where(data['column_name'] > upper_bound, upper_bound, data['column_name'])

四、处理重复数据

识别重复数据
- 检查整个数据集或指定字段组合中是否存在重复记录。

     duplicates = data[data.duplicated()]

删除重复数据
- 删除完全重复的行。

     data.drop_duplicates(inplace=True)

五、数据标准化和归一化

标准化（Standardization）
- 将数据转换为标准正态分布，消除不同特征量纲的影响。

     from sklearn.preprocessing import StandardScaler
     scaler = StandardScaler()
     data[['numeric_column1', 'numeric_column2']] = scaler.fit_transform(data[['numeric_column1', 'numeric_column2']])

归一化（Normalization）
- 将数据缩放到固定范围（如0到1），尤其适用于距离度量的算法。

     from sklearn.preprocessing import MinMaxScaler
     scaler = MinMaxScaler()
     data[['numeric_column1', 'numeric_column2']] = scaler.fit_transform(data[['numeric_column1', 'numeric_column2']])

六、处理分类特征

编码分类变量
- 标签编码（Label Encoding）：将分类转换为数值，对于有序变量效果较好。

     from sklearn.preprocessing import LabelEncoder
     le = LabelEncoder()
     data['category_column'] = le.fit_transform(data['category_column'])

独热编码（One-hot Encoding）：将分类变量扩展为多个二值变量。

     data = pd.get_dummies(data, columns=['category_column'])

七、文本和复杂数据的处理

处理文本数据
- 使用TF-IDF、词袋模型（Bag of Words）或词向量（Word2Vec、GloVe）等方式将文本转化为数值向量。

     from sklearn.feature_extraction.text import TfidfVectorizer
     tfidf = TfidfVectorizer(max_features=1000)
     tfidf_matrix = tfidf.fit_transform(data['text_column'])

处理分子结构数据
- 使用化学信息学工具（如RDKit）将SMILES字符串转换为分子特征。

     from rdkit import Chem
     from rdkit.Chem import Descriptors
     mol = Chem.MolFromSmiles('CCO')
     descriptors = [Descriptors.MolWt(mol), Descriptors.NumHDonors(mol)]

八、最终检查和保存

最终检查
- 检查数据清洗后的完整性和一致性，确保数据准备完成。
- 常用描述性统计和可视化（如相关矩阵）来检查数据质量。
保存清洗后的数据
- 将清洗和处理后的数据保存为新文件，方便后续模型训练和分析。

     data.to_csv('cleaned_data.csv', index=False)

2201_75956817

关注

25
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Datawhale夏令营机器学习

ai夏令营#Datawhale。
复制链接

扫一扫