【算法竞赛学习】Task5 排序模型+模型融合 import numpy as npimport pandas as pdimport picklefrom tqdm import tqdmimport gc, osimport timefrom datetime import datetimeimport lightgbm as lgbfrom sklearn.preprocessing import MinMaxScalerimport warningswarnings.filterwarnings('ignore')data
【算法竞赛学习】Task4 特征工程 import numpy as npimport pandas as pdimport picklefrom tqdm import tqdmimport gc, osimport loggingimport timeimport lightgbm as lgbfrom gensim.models import Word2Vecfrom sklearn.preprocessing import MinMaxScalerimport warningswarnings.filterwarn
【无标题】Task3 多路召回 import pandas as pd import numpy as npfrom tqdm import tqdm from collections import defaultdict import os, math, warnings, math, picklefrom tqdm import tqdm# import faissimport collectionsimport randomfrom sklearn.preprocessing import MinMaxSca
【算法竞赛学习】Task2 数据分析 %matplotlib inlineimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsplt.rc('font', family='SimHei', size=13)import os,gc,re,warnings,syswarnings.filterwarnings("ignore")# path = './data/' # 自定义的路径path = '.
【算法竞赛学习】Task1 赛题理解+Baseline 赛题理解是切入一道赛题的基础,会影响后续特征工程和模型构建等各种工作,也影响着后续发展工作的方向,正确了解赛题背后的思想以及赛题业务逻辑的清晰,有利于花费更少时间构建更为有效的特征模型...
【算法竞赛学习】集成学习案例二 (蒸汽量预测) 集成学习案例二 (蒸汽量预测)背景介绍火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。我们如何使用以上的信息,根据锅炉的工况,预测产生的蒸汽量,来为我国的工业届的产量预测贡献自己的一份力量
【算法竞赛学习】集成学习案例一 (幸福感预测) 集成学习案例一 (幸福感预测)背景介绍此案例是一个数据挖掘类型的比赛——幸福感预测的baseline。比赛的数据使用的是官方的《中国综合社会调查(CGSS)》文件中的调查结果中的数据,其共包含有139个维度的特征,包括个体变量(性别、年龄、地域、职业、健康、婚姻与政治面貌等等)、家庭变量(父母、配偶、子女、家庭资本等等)、社会态度(公平、信用、公共服务)等特征。数据信息赛题要求使用以上 139 维的特征,使用 8000 余组数据进行对于个人幸福感的预测(预测值为1,2,3,4,5,其中1代表幸福感最
【sklearn学习】多层感知机MLP MLPClassifier和MLPRegressionsklearn.neural_network.MLPClassifierclasssklearn.neural_network.MLPClassifier(hidden_layer_sizes=(100,),activation='relu',*,solver='adam',alpha=0.0001,batch_size='auto',learning_rate='constant',learning_rate_init=0.00...
【sklearn学习】支持向量机SVM classsklearn.svm.SVC(*,C=1.0,kernel='rbf',degree=3,gamma='scale',coef0=0.0,shrinking=True,probability=False,tol=0.001,cache_size=200,class_weight=None,verbose=False,max_iter=-1,decision_function_shape='ovr',break_ties=False,random_state=...
【sklearn学习】线性回归LinearRegression 多元线性回归指一个样本中有多个特征的线性回归问题sklearn.linear_model.LinearRegressionclass sklearn.linear_model.LinearRegression(*, fit_intercept=True, normalize='deprecated', copy_X=True, n_jobs=None, positive=False)fit_intercept:默认为True,计算模型的截距 normalize 默认使False copy_X
【sklearrn学习】朴素贝叶斯NaiveBayes 朴素贝叶斯是直接衡量标签和特征之间的概率关系的有监督学习算法sklearn.naive_bayes.GaussianNBclass sklearn.naive_bayes.GaussianNB(*, priors=None, var_smoothing=1e-09)prior:类的先验概率,如果不指定,则自行根据数据计算先验概率var_smoothing:浮点数,默认1e-9>>> import numpy as np>>> X = np.arra
【sklearn学习】集成算法之梯度提升树GBDT 梯度提升树(Gradient Boosting Decision Tree, GBDT)是提升法中的代表算法GBDT中包含Boosting三要素损失函数:用以衡量模型预测结果与真实结果的差异 弱评估器:决策树,不同的boosting算法使用不同的建树流程 综合集成结果:集成算法具体如何输出集成结果建模流程:依据上一个弱评估器的结果,计算损失函数,并使用损失函数自适应影响下一个弱评估器的构建。集成模型输出的结果,受到整体所有弱评估器的影响。GBDT的不同弱评估器GBDT的弱评
【sklearn学习】集成算法之XGBoost XGBoost是一个以提升树为核心的算法系统XGBoost中包含Boosting三要素损失函数:用以衡量模型预测结果与真实结果的差异 弱评估器:决策树,不同的boosting算法使用不同的建树流程 综合集成结果:集成算法具体如何输出集成结果原生代码必须使用XGBoost自定义的数据结构DMatrix,能够保证xgboost算法运行更快,并且能够迁移到GPU上运行。以字典形式设置参数使用xgboost中自带的方法xgb.train或xgb.cv进行训练# lightgbm原生接口
【sklearn学习】逻辑回归LogisticRegression 使用于分类问题中的回归算法逻辑回归对线性关系的拟合效果好逻辑回归计算快逻辑回归返回的分类结果不固定,而是以小数的形式呈现的类概率数字逻辑回归有抗噪能力强的特点,在小数据集上表现较好sklearn.linear_model.LogisticRegressionsklearn.linear_model.LogisticRegressionCVclasssklearn.linear_model.LogisticRegression(penalty='l2',*,dual=Fals...
【sklearn学习】降维算法PCA和SVD sklearn中的降维算法主成分分析独立成分分析decomposition.PCAclass sklearn.decomposition.PCA(n_components=None, *, copy=True, whiten=False, svd_solver='auto', tol=0.0, iterated_power='auto', random_state=None)PCA使用的信息衡量指标,就是样本方差,又称为可解释性方差,方差越大,特征所带的信息量越多。n_comp
【sklearn学习】随机森林RandomForest 集成算法会考虑多个评估器的建模结果,汇总之后得到一个综合结果,以此来获取比单个模型更好的回归或分类表现。三类集成算法:装袋法(Bagging)、提升法(Boosting)、stacking装袋法:构建多个相互独立的评估器,然后对其预测进行平均或多数表决原则来决定集成评估器的结果。代表模型有随机森林提升法:结合弱评估器对难以评估的样本进行预测,从而构建一个强评估器。代表模型是Adaboost和梯度提升树sklearn中的集成算法模块
【sklearn学习】决策树、分类树、剪枝策略 模块sklarn.treesklearn中决策树的类都在“tree”这个模块之下,这个模块总共包含五个类:tree.DecisionTreeClassifier 分类树 tree.DecisionTreeRegressor 回归树 tree.export_graphviz 将生成的决策树导出为DOT格式 tree.ExtraTreeClassifier 高随机版本的分类树 tree.ExtraTreeRegressor 高随机版本的回归树 分类树对应的