自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(172)
  • 收藏
  • 关注

原创 【飞桨Paddle】RTSP视频流和PP-Human实时行人分析

预测结果进行rtsp推流

2022-11-21 17:33:24 3672 2

原创 【Docker】dockerFile 安装ffmpeg

dockerfile

2022-11-11 13:42:42 2390

转载 【算法竞赛学习】Task5 排序模型+模型融合

import numpy as npimport pandas as pdimport picklefrom tqdm import tqdmimport gc, osimport timefrom datetime import datetimeimport lightgbm as lgbfrom sklearn.preprocessing import MinMaxScalerimport warningswarnings.filterwarnings('ignore')data

2022-06-11 10:41:28 876

转载 【算法竞赛学习】Task4 特征工程

import numpy as npimport pandas as pdimport picklefrom tqdm import tqdmimport gc, osimport loggingimport timeimport lightgbm as lgbfrom gensim.models import Word2Vecfrom sklearn.preprocessing import MinMaxScalerimport warningswarnings.filterwarn

2022-06-11 10:32:08 299

转载 【无标题】Task3 多路召回

import pandas as pd import numpy as npfrom tqdm import tqdm from collections import defaultdict import os, math, warnings, math, picklefrom tqdm import tqdm# import faissimport collectionsimport randomfrom sklearn.preprocessing import MinMaxSca

2022-06-11 10:24:10 422

转载 【算法竞赛学习】Task2 数据分析

%matplotlib inlineimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsplt.rc('font', family='SimHei', size=13)import os,gc,re,warnings,syswarnings.filterwarnings("ignore")# path = './data/' # 自定义的路径path = '.

2022-06-11 10:10:12 202

转载 【算法竞赛学习】Task1 赛题理解+Baseline

赛题理解是切入一道赛题的基础,会影响后续特征工程和模型构建等各种工作,也影响着后续发展工作的方向,正确了解赛题背后的思想以及赛题业务逻辑的清晰,有利于花费更少时间构建更为有效的特征模型...

2022-06-11 09:55:52 329

原创 【sklearn学习】LightGBM

..

2022-06-11 09:18:12 3708

原创 【算法竞赛学习】集成学习案例二 (蒸汽量预测)

集成学习案例二 (蒸汽量预测)背景介绍火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。我们如何使用以上的信息,根据锅炉的工况,预测产生的蒸汽量,来为我国的工业届的产量预测贡献自己的一份力量

2022-06-11 08:58:15 321

原创 【算法竞赛学习】集成学习案例一 (幸福感预测)

集成学习案例一 (幸福感预测)背景介绍此案例是一个数据挖掘类型的比赛——幸福感预测的baseline。比赛的数据使用的是官方的《中国综合社会调查(CGSS)》文件中的调查结果中的数据,其共包含有139个维度的特征,包括个体变量(性别、年龄、地域、职业、健康、婚姻与政治面貌等等)、家庭变量(父母、配偶、子女、家庭资本等等)、社会态度(公平、信用、公共服务)等特征。数据信息赛题要求使用以上 139 维的特征,使用 8000 余组数据进行对于个人幸福感的预测(预测值为1,2,3,4,5,其中1代表幸福感最

2022-06-11 08:57:43 406

原创 【sklearn学习】多层感知机MLP

MLPClassifier和MLPRegressionsklearn.neural_network.MLPClassifierclasssklearn.neural_network.MLPClassifier(hidden_layer_sizes=(100,),activation='relu',*,solver='adam',alpha=0.0001,batch_size='auto',learning_rate='constant',learning_rate_init=0.00...

2022-04-06 21:00:19 4035

原创 【sklearn学习】支持向量机SVM

classsklearn.svm.SVC(*,C=1.0,kernel='rbf',degree=3,gamma='scale',coef0=0.0,shrinking=True,probability=False,tol=0.001,cache_size=200,class_weight=None,verbose=False,max_iter=-1,decision_function_shape='ovr',break_ties=False,random_state=...

2022-04-06 20:57:59 1761

原创 【sklearn学习】线性回归LinearRegression

多元线性回归指一个样本中有多个特征的线性回归问题sklearn.linear_model.LinearRegressionclass sklearn.linear_model.LinearRegression(*, fit_intercept=True, normalize='deprecated', copy_X=True, n_jobs=None, positive=False)fit_intercept:默认为True,计算模型的截距 normalize 默认使False copy_X

2022-04-06 16:20:43 5382

原创 【sklearrn学习】朴素贝叶斯NaiveBayes

朴素贝叶斯是直接衡量标签和特征之间的概率关系的有监督学习算法sklearn.naive_bayes.GaussianNBclass sklearn.naive_bayes.GaussianNB(*, priors=None, var_smoothing=1e-09)prior:类的先验概率,如果不指定,则自行根据数据计算先验概率var_smoothing:浮点数,默认1e-9>>> import numpy as np>>> X = np.arra

2022-04-06 16:20:11 2482

原创 【sklearn学习】集成算法之梯度提升树GBDT

梯度提升树(Gradient Boosting Decision Tree, GBDT)是提升法中的代表算法GBDT中包含Boosting三要素损失函数:用以衡量模型预测结果与真实结果的差异 弱评估器:决策树,不同的boosting算法使用不同的建树流程 综合集成结果:集成算法具体如何输出集成结果建模流程:依据上一个弱评估器的结果,计算损失函数,并使用损失函数自适应影响下一个弱评估器的构建。集成模型输出的结果,受到整体所有弱评估器的影响。GBDT的不同弱评估器GBDT的弱评

2022-04-06 16:19:15 2219

原创 【sklearn学习】集成算法之XGBoost

XGBoost是一个以提升树为核心的算法系统XGBoost中包含Boosting三要素损失函数:用以衡量模型预测结果与真实结果的差异 弱评估器:决策树,不同的boosting算法使用不同的建树流程 综合集成结果:集成算法具体如何输出集成结果原生代码必须使用XGBoost自定义的数据结构DMatrix,能够保证xgboost算法运行更快,并且能够迁移到GPU上运行。以字典形式设置参数使用xgboost中自带的方法xgb.train或xgb.cv进行训练# lightgbm原生接口

2022-04-06 16:18:55 4716

原创 【sklearn学习】逻辑回归LogisticRegression

使用于分类问题中的回归算法逻辑回归对线性关系的拟合效果好逻辑回归计算快逻辑回归返回的分类结果不固定,而是以小数的形式呈现的类概率数字逻辑回归有抗噪能力强的特点,在小数据集上表现较好sklearn.linear_model.LogisticRegressionsklearn.linear_model.LogisticRegressionCVclasssklearn.linear_model.LogisticRegression(penalty='l2',*,dual=Fals...

2022-03-29 21:20:27 1407

原创 【sklearn学习】降维算法PCA和SVD

sklearn中的降维算法主成分分析独立成分分析decomposition.PCAclass sklearn.decomposition.PCA(n_components=None, *, copy=True, whiten=False, svd_solver='auto', tol=0.0, iterated_power='auto', random_state=None)PCA使用的信息衡量指标,就是样本方差,又称为可解释性方差,方差越大,特征所带的信息量越多。n_comp

2022-03-29 21:18:49 454

原创 【sklearn学习】随机森林RandomForest

集成算法会考虑多个评估器的建模结果,汇总之后得到一个综合结果,以此来获取比单个模型更好的回归或分类表现。三类集成算法:装袋法(Bagging)、提升法(Boosting)、stacking装袋法:构建多个相互独立的评估器,然后对其预测进行平均或多数表决原则来决定集成评估器的结果。代表模型有随机森林提升法:结合弱评估器对难以评估的样本进行预测,从而构建一个强评估器。代表模型是Adaboost和梯度提升树sklearn中的集成算法模块

2022-03-29 21:12:02 2605

原创 【sklearn学习】决策树、分类树、剪枝策略

模块sklarn.treesklearn中决策树的类都在“tree”这个模块之下,这个模块总共包含五个类:tree.DecisionTreeClassifier 分类树 tree.DecisionTreeRegressor 回归树 tree.export_graphviz 将生成的决策树导出为DOT格式 tree.ExtraTreeClassifier 高随机版本的分类树 tree.ExtraTreeRegressor 高随机版本的回归树 分类树对应的

2022-03-29 21:09:56 813

转载 【算法竞赛学习】气象海洋预测-Task5 模型建立之 SA-ConvLSTM

气象海洋预测-Task5 模型建立之 SA-ConvLSTM该方案中采用的模型是SA-ConvLSTM。前两个TOP方案中选择将赛题看作一个多输出的任务,通过构建神经网络直接输出24个nino3.4预测值,这种思路的问题在于,序列问题往往是时序依赖的,当我们采用多输出的方法时其实把这24个nino3.4预测值看作是完全独立的,但是实际上它们之间是存在序列依赖的,即每个预测值往往受上一个时间步的预测值的影响。因此,在这次的TOP方案中,采用Seq2Seq结构来考虑输出预测值的序列依赖性。Seq2Seq结

2022-02-24 10:21:31 3331 4

转载 【算法竞赛学习】气象海洋预测-Task4 模型建立之 TCNN+RNN

气象海洋预测-Task4 模型建立之 TCNN+RNN该方案中采用的模型是TCNN+RNN。在Task3中我们学习了CNN+LSTM模型,但是LSTM层的参数量较大,这就带来以下问题:一是参数量大的模型在数据量小的情况下容易过拟合;二是为了尽量避免过拟合,在有限的数据集下我们无法构建更深的模型,难以挖掘到更丰富的信息。相较于LSTM,CNN的参数量只与过滤器的大小有关,在各类任务中往往都有不错的表现,因此我们可以考虑同样用卷积操作来挖掘时间信息。但是如果用三维卷积来同时挖掘时间和空间信息,假设使用的过滤

2022-02-24 10:17:40 1766

转载 【算法竞赛学习】气象海洋预测-Task3 模型建立之 CNN+LSTM

气象海洋预测-Task3 模型建立之 CNN+LSTM本次任务我们将学习来自TOP选手“学习AI的打工人”的建模方案,该方案中采用的模型是CNN+LSTM。在本赛题中,我们构造的模型需要完成两个任务,挖掘空间信息以及挖掘时间信息。那么,说到挖掘空间信息的模型,我们会很自然的想到CNN,同样的,挖掘时间信息的模型我们会很容易想到LSTM,我们本次学习的这个TOP方案正是构造了CNN+LSTM的串行结构。学习目标学习TOP方案的数据处理方法。学习TOP方案的模型构建方法。内容介绍数据处理

2022-02-24 10:10:54 2150 2

转载 【算法竞赛学习】气象海洋预测-Task2 数据分析

气象海洋预测-Task2 数据分析数据分析是我们解决一个数据挖掘任务的重要一环,通过数据分析,我们可以了解标签的分布、数据中存在的缺失值和异常值、特征与标签之间的相关性、特征之间的相关性等,并根据数据分析的结果,指导我们后续的特征工程以及模型的选择和设计。在本次任务中,我们将探索赛题中给出的两份训练数据,可视化分析四个气象特征的分布情况,思考如何进行特征工程以及如何选择或设计模型来实现我们的预测任务。学习目标学习如何探索并可视化分析气象数据。根据数据分析结果思考以下两个问题:能否构造新的特征

2022-02-24 09:42:31 1887

转载 【算法竞赛学习】气象海洋预测-Task1 气象数据分析常用工具

气象海洋预测-Task1 气象数据分析常用工具气象科学中的数据通常包含多个维度,例如本赛题中给出的数据就包含年、月、经度、纬度四个维度,为了便于数据的读取和操作,气象数据通常采用netCDF文件来存储,文件后缀为.nc。对于以netCDF文件存储的气象数据,有两个常用的数据分析库,即NetCDF4和Xarray。在此次任务中,我们将学习这两个库的基本对象和基本操作,掌握用这两个库读取和处理气象数据的基本方法。学习目标1.了解和学习NetCDF4和Xarray的基本对象和基本操作,掌握用这两个库读取和

2022-02-24 09:33:43 975 1

转载 【算法竞赛学习】数字中国创新大赛智慧海洋建设-Task5模型融合

智慧海洋建设-Task5 模型融合5.1 学习目标学习融合策略完成相应学习打卡任务5.2 内容介绍https://mlwave.com/kaggle-ensembling-guide/https://github.com/MLWave/Kaggle-Ensemble-Guide模型融合是比赛后期一个重要的环节,大体来说有如下的类型方式。简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Votin

2022-02-16 10:38:05 233

转载 【算法竞赛学习】数字中国创新大赛智慧海洋建设-Task4模型建立

智慧海洋建设-Task4模型建立此部分为智慧海洋建设竞赛的模型建立模块。在该模块中主要介绍了如何进行模型建立并对模型调优。学习目标学习如何选择合适的模型以及如何通过模型来进行特征选择掌握随机森林、lightGBM、Xgboost模型的使用。掌握贝叶斯优化方法的具体使用内容介绍模型训练与预测随机森林lightGBM模型Xgboost模型交叉验证模型调参智慧海洋数据集模型代码示例模型训练与预测模型训练与预测的主要步骤为:(1):导入需要的工具库(2):对数据预处

2022-02-16 10:36:06 479

转载 【算法竞赛学习】数字中国创新大赛智慧海洋建设-Task3特征工程

智慧海洋建设-Task3 特征工程此部分为智慧海洋建设竞赛的特征工程模块,通过特征工程,可以最大限度地从原始数据中提取特征以供算法和模型使用。通俗而言,就是通过X,创造新的X’以获得更好的训练、预测效果。“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”——机器学习界;类似的,吴恩达曾说过:“特征工程不仅操作困难、耗时,而且需要专业领域知识。应用机器学习基本上就是特征工程。”赛题:智慧海洋建设特征工程的目的:特征工程是一个包含内容很多的主题,也被认为是成功应用机器学习的一个

2022-02-16 10:34:03 410

转载 【算法竞赛学习】数字中国创新大赛智慧海洋建设-Task2数据分析

智慧海洋建设-Task2 数据分析此部分为智慧海洋建设竞赛的数据分析模块,通过数据分析,可以熟悉数据,为后面的特征工程做准备,欢迎大家后续多多交流。赛题:智慧海洋建设数据分析的目的:EDA的主要价值在于熟悉整个数据集的基本情况(缺失值、异常值),来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。了解特征之间的相关性、分布,以及特征与预测值之间的关系。为进行特征工程提供理论依据。项目地址:https://github.com/datawhalechina/team-le

2022-02-16 10:30:41 710

转载 【算法竞赛学习】数字中国创新大赛智慧海洋建设-Task1地理数据分析常用工具

智慧海洋建设-Task1 地理数据分析常用工具在地理空间数据分析中,常会用到许多地理分析的工具,在本模块中主要是针对常用的shapely、geopandas、folium、kepler.gl、geohash等工具进行简单介绍。其中shapely和geopandas是做地理空间数据的分析很好的工具,而folium和kepler.gl是进行地理数据可视化的工具,geohash是将经纬度坐标进行数据编码的方式。通过了解不同的方法将有助于我们去思考如何在现有的工具下去做数据的分析和特征的提取功能学习目标1.了

2022-02-16 10:24:44 946

转载 【算法竞赛学习】AI助力精准气象和海洋预测

赛题简介赛题背景发生在热带太平洋上的厄尔尼诺-南方涛动(ENSO)现象是地球上最强、最显著的年际气候信号。通过大气或海洋遥相关过程,经常会引发洪涝、干旱、高温、雪灾等极端事件,对全球的天气、气候以及粮食产量具有重要的影响。准确预测ENSO,是提高东亚和全球气候预测水平和防灾减灾的关键。本次赛题是一个时间序列预测问题。基于历史气候观测和模式模拟数据,利用T时刻过去12个月(包含T时刻)的时空序列(气象因子),构建预测ENSO的深度学习模型,预测未来1-24个月的Nino3.4指数,如下图所示:数据描

2022-02-15 10:53:45 767

转载 【算法竞赛学习】心跳信号分类预测-模型融合

Task 5: 模型融合此部分为零基础入门数据挖掘之心电图分类的 Task5 建模融合部分,带你来了解各种模型融合方法及策略,欢迎大家后续多多交流。赛题:零基础入门数据挖掘 - 心电图分类预测项目地址:比赛地址:5.1 学习目标学习融合策略完成相应学习打卡任务5.2 内容介绍https://mlwave.com/kaggle-ensembling-guide/https://github.com/MLWave/Kaggle-Ensemble-Guide模型融合是比赛后期一个重要的环

2022-02-12 11:13:49 364

转载 【算法竞赛学习】心跳信号分类预测-建模与调参

Task4 建模与调参此部分为零基础入门数据挖掘之心电图分类的 Task4 建模调参部分,带你来了解各种模型以及模型的评价和调参策略,欢迎大家后续多多交流。赛题:零基础入门数据挖掘 - 心电图分类预测项目地址:比赛地址:4.1 学习目标学习机器学习模型的建模过程与调参流程完成相应学习打卡任务4.2 内容介绍逻辑回归模型:理解逻辑回归模型;逻辑回归模型的应用;逻辑回归的优缺点;树模型:理解树模型;树模型的应用;树模型的优缺点;集成模型基于baggi

2022-02-12 11:12:19 719

转载 【算法竞赛学习】心跳信号分类预测-特征工程

Task3 特征工程此部分为零基础入门数据挖掘-心跳信号分类预测的 Task3 特征工程部分,带你来了解时间序列特征工程以及分析方法,欢迎大家后续多多交流。赛题:零基础入门数据挖掘-心跳信号分类预测项目地址:比赛地址:3.1 学习目标学习时间序列数据的特征预处理方法学习时间序列特征处理工具 Tsfresh(TimeSeries Fresh)的使用3.2 内容介绍数据预处理时间序列数据格式处理加入时间步特征time特征工程时间序列特征构造特征筛选使用 tsfresh

2022-02-12 11:10:20 867

转载 【算法竞赛学习】心跳信号分类预测-数据分析

Task 2 数据分析Tip: 此部分为零基础入门数据挖掘的 Task2 EDA-数据探索性分析 部分,带你来了解数据,熟悉数据,和数据做朋友,欢迎大家后续多多交流。赛题:心电图心跳信号多分类预测2.1 EDA 目标EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让

2022-02-12 11:08:56 734

转载 【算法竞赛学习】心跳信号预测分类-赛题理解

心跳信号预测分类-Task1 赛题理解Task1赛题理解赛题以心电图数据为背景,要求选手根据心电图感应数据预测心跳信号,其中心跳信号对应正常病例以及受不同心律不齐和心肌梗塞影响的病例,这是一个多分类的问题。通过这道赛题来引导大家了解医疗大数据的应用,帮助竞赛新人进行自我练习、自我提高。比赛地址:https://tianchi.aliyun.com/competition/entrance/531883/introduction1.1学习目标理解赛题数据和目标,清楚评分体系。1.2了解赛题

2022-02-12 11:06:41 1060

原创 【算法竞赛学习】金融风控之贷款违约预测-Baseline

Baselineimport pandas as pdimport osimport gcimport lightgbm as lgbimport xgboost as xgbfrom catboost import CatBoostRegressorfrom sklearn.linear_model import SGDRegressor, LinearRegression, Ridgefrom sklearn.preprocessing import MinMaxScalerimpor

2022-02-11 11:01:35 724

转载 【算法竞赛学习】金融风控之贷款违约预测-模型融合

Task5 模型融合Tip:此部分为零基础入门金融风控的 Task5 模型融合部分,欢迎大家后续多多交流。赛题:零基础入门数据挖掘 - 零基础入门金融风控之贷款违约预测项目地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/introductio

2022-02-11 10:58:59 689

转载 【算法竞赛学习】金融风控之贷款违约预测-建模与调参

Task4 建模与调参此部分为零基础入门金融风控的 Task4 建模调参部分,带你来了解各种模型以及模型的评价和调参策略,欢迎大家后续多多交流。赛题:零基础入门数据挖掘 - 零基础入门金融风控之贷款违约预测项目地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl比赛地址:https://tianchi.aliyun.com/competition/entrance

2022-02-11 10:56:38 822

转载 【算法竞赛学习】金融风控之贷款违约预测-特征工程

Task3 特征工程此部分为零基础入门金融风控的 Task3 特征工程部分,带你来了解各种特征工程以及分析方法,欢迎大家后续多多交流。赛题:零基础入门数据挖掘 - 零基础入门金融风控之贷款违约项目地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl比赛地址:https://tianchi.aliyun.com/competition/entrance/531830

2022-02-11 10:52:05 544

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除