- 博客(8)
- 收藏
- 关注
原创 阿里云天池机器学习task4
前言龙珠机器学习训练营的第四个阶段了,这一部分主要是赛事实战,我这里也主要采用了前面所学到的一些模型来解决这次比赛。快来一起挖掘幸福感赛前预览首先我们看一下比赛的大致要求和数据提供这次比赛大概是通过问卷中的问题来获取一些人的个人情况等,从中提取重要因素用来判断幸福感。数据可视化import pandas as pdimport matplotlib.pyplot as plt#显示所有列pd.set_option('display.max_columns', None)#显示所
2022-03-31 11:13:56 141
原创 【无标题】阿里云天池机器学习task3
一、LightGBM的介绍1.1 简介LightGBM是2017年由微软推出的可扩展机器学习系统,是微软旗下DMKT的一个开源项目,由2014年首届阿里巴巴大数据竞赛获胜者之一柯国霖老师带领开发。它是一款基于GBDT(梯度提升决策树)算法的分布式梯度提升框架,为了满足缩短模型计算时间的需求,LightGBM的设计思路主要集中在减小数据对内存与计算性能的使用,以及减少多机器并行计算时的通讯代价。LightGBM可以看作是XGBoost的升级豪华版,在获得与XGBoost近似精度的同时,又提供了更快
2022-03-31 11:09:02 156
原创 【无标题】阿里云天池机器学习task2
一 原理简介:XGBoost本质上还是一个GBDT,但是力争把速度和效率发挥到极致,所以叫X (Extreme) GBoosted。XGBoost的核心算法思想不难,基本就是:1.不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数 f(x),去拟合上次预测的残差。2.当我们训练完成得到k棵树,我们要预测一个样本的分数,其实就是根据这个样本的特征,在每 棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数3.最后只需要将每棵树对应的分数加...
2022-03-31 11:03:59 1207
原创 阿里云天池机器学习task1
全文仅为自己以后回顾知识点所用,详细请参考每个知识点下的来源!小知识点:np.meshgrid()二维坐标系中,X轴可以取三个值1,2,3, Y轴可以取三个值7,8, 请问可以获得多少个点的坐标?显而易见是6个:(1,7)(2,7)(3,7)(1,8)(2,8)(3,8)import numpy as np# 坐标向量a = np.array([1,2,3])# 坐标向量b = np.array([7,8])# 从坐标向量中返回坐标矩阵# 返回list,有两个元素,第一个
2022-03-31 10:55:46 100
原创 阿里云天池task4
数据分析首先task4是一个项目做一个数据分析的题目是关于2020美国选举的。数据集所有候选人信息CAND_ID 候选人IDCAND_NAME 候选人姓名CAND_PTY_AFFILIATION 候选人党派候选人委员会链接信息CAND_ID 候选人IDCAND_ELECTION_YR 候选人选举年份CMTE_ID 委员会ID个人捐款档案信息CMTE_ID 委员会IDNAME 捐款人姓名CITY 捐款人所在市State 捐款人所在州EMPLOYER 捐款人雇主/公司OCC
2022-03-24 09:10:26 112
原创 阿里云天池task3
学习目标学习特征交互、编码、选择的相应方法 学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法object类型处理先把日期转为时间格式,再分离,构建年月日特征import datetime#转化成时间格式 issueDateDT特征表示数据日期离数据集中日期最早的日期(2007-06-01)的天数train_data['issueDate'] = pd.to_datetime(train_data['issueDate'],format='%Y-%m-%d')test_dat
2022-03-24 09:07:34 204
原创 【无标题】阿里云天池task2
GBDT (Gradient Boosting Decision Tree)是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛,通常被用于多分类、点击率预测、搜索排序等任务;在各种数据挖掘竞赛中也是致命武器,据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。LightGBM(Light Gradient Boosting Machine)是一个实现GBDT算法的框架,支持...
2022-03-24 09:00:28 153
原创 阿里云天池task1学习笔记
1 数据库简介据库是将大量数据保存起来,通过计算机加工而成的可以 进行高效访问的数据集合。该数据集合称为数据库(Database,DB)。用来管理数据库的计算机系统称为数据库管理系统(Database Management System,DBMS)。1.1 DBMS的种类DBMS 主要通过数据的保存格式(数据库的种类)来进行分类,现阶段主要有以下 5 种类型.层次数据库(Hierarchical Database,HDB)关系数据库(Relational Database,RDB)这种类型的
2022-03-24 08:50:36 191
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人