机器学习算法实现
liuzh(少昊)
机器学习工程师,python研发工程师
展开
-
python实现机器学习算法XGBoost
查询数据库数据保存为pandas.dataframefrom sqlalchemy import create_engine# 初始化数据库连接,使用pymysql模块engine = create_engine('mysql+pymysql://用户名:host:3306/数据库名')# 查询语句,选出employee表中的所有数据sql = ''' SELECT 字...原创 2019-01-10 23:49:38 · 1006 阅读 · 2 评论 -
Python中XGBoost的特性重要性和特性选择
使用像梯度增强这样的决策树方法的集合的一个好处是,它们可以从经过训练的预测模型中自动提供特征重要性的估计。在这篇文章中,您将发现如何使用Python中的XGBoost库估计特性对于预测建模问题的重要性。读完这篇文章你就会知道:如何使用梯度增强算法计算特征的重要性。如何在Python中绘制由XGBoost模型计算的特性重要性。如何使用XGBoost计算的特性重要性来执行特性选择。让我们开...翻译 2019-03-27 22:35:13 · 12215 阅读 · 4 评论 -
如何保存和加载XGBoost模型(save model and load model)
XGBoost是梯度增强算法在表数据中性能最好的模型。一旦训练完毕,将模型保存到文件中,以便以后在预测新的测试和验证数据集以及全新的数据时使用,这通常是一个很好的实践。在本文中,您将了解如何使用标准的Python pickle API将XGBoost模型保存到文件中。完成本教程后,您将知道:如何使用pickle保存和稍后加载经过培训的XGBoost模型。如何使用joblib保存和稍后加载...翻译 2019-03-27 21:54:58 · 41543 阅读 · 0 评论 -
使用学习曲线诊断机器学习模型性能
学习曲线是模型学习性能随经验或时间变化的曲线。学习曲线是机器学习中广泛使用的诊断工具,用于从训练数据集中增量学习算法。该模型可以在训练数据集和每次训练更新后的验证数据集上进行评估,并可以创建测试性能的曲线图来显示学习曲线。在训练过程中回顾模型的学习曲线,可以用来诊断学习中的问题,例如模型的过拟合或欠拟合,以及训练和验证数据集是否具有适当的代表性。在本文中,您将发现学习曲线,以及如何使用它们来...翻译 2019-04-04 18:35:00 · 2820 阅读 · 0 评论 -
使用XGBoost之数据准备(LabelEncoder,One Hot Encode,处理缺失值)
由于其速度和性能,XGBoost是一种流行的梯度增强实现。在内部,XGBoost模型将所有问题表示为仅以数值作为输入的回归预测建模问题。如果您的数据是另一种形式的,则必须将其准备成预期的格式。在本文中,您将了解如何使用Python中的XGBoost库为梯度增强准备数据。读完这篇文章你就会知道:如何为分类编码字符串输出变量。如何使用onehot准备分类输入变量。如何使用XGBoost自动...翻译 2019-03-29 16:20:21 · 17965 阅读 · 0 评论 -
XGBoost原理
XGBoost原理推导过程如有不懂留言交流!!!转载 2019-03-19 14:33:56 · 125 阅读 · 0 评论 -
机器学习中如何处理不平衡数据
https://mp.weixin.qq.com/s/x48Ctb0_Eu1kcSGTYLt5BQ转载 2019-02-19 10:25:52 · 314 阅读 · 0 评论 -
手动实现机器学习中的one-hot编码
需求:样本的分类特征不唯一# coding=gbkdef deal(): # 假设特征类别的全集已经得到(有很多种办法可以得到,自行解决) TAGS_LIST = ['汽车研发', '其他交通工具制造', '汽车后市场', '停车服务', '车联网', '汽车综合服务', '汽车制造', '汽车交易', '出行服务', '公共交通', '汽车交通支撑服务', ...原创 2019-01-21 10:51:17 · 609 阅读 · 0 评论 -
机器学习中常见的离散变量的编码方式 onehotencoder(独热编码)
onehotencoder(独热编码)# dataset为数据集 product_tags为需要编码的特征列(假设为第一列)product_tags = dataset.iloc[:, :1]from sklearn.preprocessing import OneHotEncoderenc = OneHotEncoder(categories='auto').fit(product...原创 2019-01-11 23:07:28 · 2389 阅读 · 1 评论 -
机器学习中常见的离散变量的编码方式 labelencoding(标签编码)
labelencoding(标签编码)# dataset为数据集 product_tags为需要编码的特征列(假设为第一列)product_tags = dataset.iloc[:, :1]from sklearn.preprocessing import LabelEncoderle = LabelEncoder() #实例化le = le.fit(product_tags)...原创 2019-01-11 22:53:16 · 7908 阅读 · 0 评论 -
机器学习对于结果的评价指标最简单解释
混淆矩阵(confusion_matrix)左上到右下对角线上为预测正确的 对角线外面为错误精确率预测结果为正例样本中真实为正例的比例 结果越大越好Micro-average 微平均(分类正确的样本个数) / (分类的所有样本个数)F1值精确度和召回率的调和平均值 越大越好如果A取1,那么F-measure实际上就是precison和recall的调和平均值 2pr...原创 2019-01-11 22:41:10 · 788 阅读 · 0 评论 -
如何使用k-fold交叉验证评估XGBoost模型的性能
开发预测模型的目标是开发一个对不可见数据准确预测的模型。这可以通过使用统计技术来实现,其中训练数据集被仔细地用于评估模型对新数据和不可见数据的性能。在本教程中,您将了解如何使用Python中的XGBoost评估梯度增强模型的性能。完成本教程之后,您就会知道了。如何使用培训和测试数据集评估XGBoost模型的性能。如何使用k-fold交叉验证评估XGBoost模型的性能。让我们开始吧。...翻译 2019-03-28 17:42:18 · 17134 阅读 · 3 评论