机器学习
文章平均质量分 63
机器学习专栏
梦码城
以梦为码,不负韶华
展开
-
机器学习中的公平性
机器学习公平性主要研究如何通过解决或缓解“不公平”来增加模型的公平性,以及如何确保模型的输出结果能够让不同的群体、个人都有平等的机会获得利益。然而,受文化和环境的影响,人们对公平性的理解存在一定的主观性。到目前为止,公平性尚未有统一的定义及度量指标。原创 2023-03-30 20:10:07 · 2141 阅读 · 0 评论 -
机器学习中的特征工程
机器学习中的特征工程什么是特征工程数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器学习模型逼近这个上限。构建算法模型的步骤包括数据准备、特征工程、模型构建、模型调优,其中特征工程是最重要的步骤,需要 70% 甚至以上的工作量。特征工程主要包括数据预处理、特征选择、特征构造、特征降维等。一、数据预处理数据预处理是特征工程的最重要的起始步骤,主要包括数据清洗、特征归一化、离散特征编码、原创 2022-01-13 14:07:44 · 5138 阅读 · 0 评论 -
集成学习与模型融合(kaggle--Elo Merchant Category Recommendation)
import numpy as npimport pandas as pdimport lightgbm as lgbfrom sklearn.model_selection import KFoldfrom hyperopt import hp, fmin, tpefrom numpy.random import RandomStatefrom sklearn.metrics import mean_squared_error数据读取train = pd.read_csv("prepro原创 2022-01-29 13:51:41 · 948 阅读 · 1 评论 -
天池二手车价格预测top2%
import pandas as pdfrom pandas_profiling import ProfileReportimport numpy as npfrom scipy.stats import boxcoxfrom scipy.special import inv_boxcoximport matplotlib.pyplot as pltimport seaborn as snssns.set_style('darkgrid') import warningsw原创 2022-01-29 14:06:16 · 1445 阅读 · 1 评论 -
Filter特征筛选+随机森林建模+交叉验证(kaggle-Elo Merchant Category Recommendation)
数据预处理流程思路数据读取import pandas as pdimport numpy as npfrom sklearn.model_selection import KFoldfrom numpy.random import RandomStatefrom sklearn.ensemble import RandomForestRegressorfrom sklearn.metrics import mean_squared_errortrain = pd.read_csv("原创 2022-01-29 12:51:18 · 2390 阅读 · 0 评论 -
Filter特征筛选+随机森林建模+网格搜索调优(Kaggle--Elo Merchant Category Recommendation)
数据预处理流程思路import pandas as pdimport numpy as np数据读取train = pd.read_csv("preprocess/train.csv")test = pd.read_csv("preprocess/test.csv")随机森林模型预测特征选择–皮尔逊相关系数(train.shape, test.shape)((201917, 1700), (123623, 1699))# 提取特征名称features = train.co原创 2022-01-29 12:50:02 · 1706 阅读 · 0 评论 -
Kaggle-Elo Merchant Category Recommendation案例1%解决方案(特征工程)
数据预处理流程思路1. 数据读取import gcimport timeimport numpy as npimport pandas as pdfrom datetime import datetime train = pd.read_csv("train.csv")test = pd.read_csv("test.csv")merchants = pd.read_csv("merchants.csv")new_transactions = pd.read_csv("new_m原创 2022-01-29 12:46:50 · 2791 阅读 · 0 评论 -
集成学习与模型融合(kaggle-Elo Merchant Category Recommendation)
import numpy as npimport pandas as pdimport lightgbm as lgbfrom sklearn.model_selection import KFoldfrom hyperopt import hp, fmin, tpefrom numpy.random import RandomStatefrom sklearn.metrics import mean_squared_error数据读取train = pd.read_csv("prepro原创 2022-01-29 12:54:38 · 1166 阅读 · 0 评论 -
贝叶斯调参报错:Object has no attribute ‘integers‘
报错版本:python version:3.9.7hyperopt version:0.2.7报错代码段:rstate=RandomState(seed)报错完整信息:AttributeError: ‘numpy.random.mtrand.RandomState’ object has no attribute ‘integers’解决方案:rstate=np.random.default_rng(seed)问题根源:版本问题...原创 2022-01-28 11:36:07 · 1785 阅读 · 2 评论 -
使用lgb.cv时出现ValueError: Supported target types are: (‘binary‘, ‘multiclass‘). Got ‘continuous‘ instea
使用lgb.cv时出现ValueError: Supported target types are: (‘binary’, ‘multiclass’). Got ‘continuous’ instead.默认情况下,lightgbm.cv中的stratify参数是True。 根据the documentation:stratified (bool, optional (default=True)) – Whether to perform stratified sampling.但是stratify只原创 2022-01-14 20:48:15 · 3477 阅读 · 0 评论 -
机器学习——房屋价格预测【回归问题】
机器学习——房屋价格预测【回归问题】1. 导工具包import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings('ignore') #过滤所有警告2. 读取数据# 读取数据集train = pd.read_csv("train.csv")test = pd.read_csv("test.cs原创 2022-01-12 22:09:09 · 3498 阅读 · 0 评论 -
决策树算法
1. 自己创建至少2个向量,每个向量至少1个属性和1个类标号,根据向量生成决策树,并利用该决策树进行预测导入必备包from sklearn import treeimport numpy as npimport pandas as pd构造scikit-learn内置决策树X = [[20,10],[15,17],[23,21],[50,20],[20,34]]Y = [0,1,0,1,1]clf = tree.DecisionTreeClassifier()clf = clf.fit(原创 2022-04-25 18:41:46 · 566 阅读 · 0 评论