自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 问答 (1)
  • 收藏
  • 关注

原创 【金融风控-贷款违约预测】数据挖掘学习:5.模型融合

学习目标

2020-09-27 14:06:40 277

原创 【金融风控-贷款违约预测】数据挖掘学习:4.建模与调参

学习目标学习在金融风控领域常用的机器学习模型; 学习机器学习模型的建模过程与调参流程;内容介绍逻辑回归模型: 理解逻辑回归模型; 逻辑回归模型的应用; 逻辑回归的优缺点; 树模型: 理解树模型; 树模型的应用; 树模型的优缺点; 集成模型 基于bagging思想的集成模型; 随机森林模型; 基于boosting思想的集成模型; XGBoost模型; LightGBM模型; CatBoost模型; 模型对比与性能评估: 回归模

2020-09-24 20:56:25 835

原创 【金融风控-贷款违约预测】数据挖掘学习:3.特征工程

学习目标学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法; 学习特征交互、编码、选择的相应方法;内容介绍数据预处理 缺失值的填充 时间格式处理 对象类型特征转换到数值 异常值处理 基于3segama原则 基于箱型图 数据分箱 固定宽度分箱 分位数分箱 离散数值型数据分箱 连续数值型数据分箱 卡方分箱 特征交互 特征和特征之间组合 特征和特征之间衍生 其他特征衍生的尝试 特征编码 one-hot编码 lab

2020-09-21 15:39:46 1063

转载 【DCIC】数据分析学习:4.订单数据统计

学习目标网约车vs出租车订单价格对比 网约车vs出租车订单距离对比 网约车vs出租车时间对比具体来说,希望回答什么以下问题:什么情况下网约车订单比出租车订单多? 在同等条件下网约车与出租车价格对比;订单数据统计在订单数据中,我们希望完成以下统计:巡游车订单距离与时间的对比(2019年与2020年);import numpy as npimport matplotlib.pyplot as pltimport matplotlib.animation as animation

2020-09-20 20:48:28 662

转载 【DCIC】数据分析学习:3.地图数据统计

学习目标GPS经纬度介绍 Pandas分组聚合 出租车与网约车经纬度统计地图数据统计(基础知识)在任务三,我们希望通过分析和统计能够发现:巡游车与网约车的空间分布; 上下客点分布密度:上下车位置分布;GPS经纬度WGS-84原始坐标系,一般用国际GPS记录仪记录下来的经纬度,通过GPS定位拿到的原始经纬度,Google和高德地图定位的的经纬度(国外)都是基于WGS-84坐标系的;但是在国内是不允许直接用WGS84坐标系标注的,必须经过加密后才能使用; GCJ-02坐标系,又名“火

2020-09-20 20:37:41 1113

原创 【金融风控-贷款违约预测】数据挖掘学习:2.数据分析

学习目标学习如何对数据集整体概况进行分析,包括数据集的基本情况(缺失值,异常值) 学习了解变量间的相互关系、变量与预测值之间的存在关系内容介绍数据总体了解: 读取数据集并了解数据集大小,原始特征维度; 通过info熟悉数据类型; 粗略查看数据集中各特征基本统计量; 缺失值和唯一值: 查看数据缺失值情况 查看唯一值特征情况 深入数据-查看数据类型 类别型数据 数值型数据 离散数值型数据 连续数值型数据 数据间相关关系 特征和特征之间关系

2020-09-18 20:57:26 1313 1

原创 【金融风控-贷款违约预测】数据挖掘学习:1.赛题理解

学习目标理解赛题数据和目标,清楚评分体系。 完成相应报名,下载数据和结果提交打卡(可提交示例结果),熟悉比赛流程。了解赛题赛题概况比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/introduction比赛要求参赛选手根据给定的数据集,建立模型,预测金融风险。赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证

2020-09-15 10:16:06 2545

转载 【DCIC】数据分析学习:2.数据可视化

学习目标数据可视化基础; 出租车轨迹可视化; 出租车热度可视化;数据可视化数据可视化(Data Visualization)是聚焦数据表现形式的领域,如何将信息进行抽象、对比和展示的方法。数据可视化在不断发展,可供使用的工具和展示形式在不断演变。与数据科学的其他方向相比(机器学习和数据挖掘),可视化涵盖的技术方法更多,形式更加多样。下图,未来美国的人口统计数据(不同年龄阶段)下图,电影对白(按性别划分)数据可视化根据用途可以划分为:数据统计展示; 数据分布展示

2020-09-14 13:25:29 1037

转载 【DCIC】数据分析学习:1.数据读取

学习目标下载好数据集,并理解赛题具体的背景; 理解并梳理清楚赛题的任务; 完成赛题数据读取;赛题任务需要注意本次学习使用的数据为DCIC赛题2数据,需要报名后才能下载。报名规则及报名手册具体详见[赛程赛规]-[参赛团队]。赛题介绍赛题名称:A城市巡游车与网约车运营特征对比分析 赛题说明:出租车作为城市客运交通系统的重要组成部分,以高效、便捷、灵活等优点深受居民青睐。出租车每天的运营中会产生大量的上下车点位相关信息,对这些数据进行科学合理的关联和挖掘,对比在工作日以及休息日、节假日的出

2020-09-10 17:49:30 578 3

原创 【百面机器学习】笔记:特征工程

特征归一化问题:为什么需要对数值类型的特征做归一化?对特征做归一化可以加速梯度下降的收敛速度。假设有两个特征和,是房屋的大小,取值在 0~2000 平方米,是房间的数量,取值在 1~5 间。若以的参数为横轴,的参数为纵轴,绘制代价函数的等高线图,那么图像会呈椭圆形(如下图左),梯度下降算法需要迭代很多次才能收敛。若将和进行归一化,即将和的取值范围缩放至 0~1,绘制代价函数的等高线图,那么图像会呈正圆形(如下图右),梯度下降算法可以更快收敛。并不是所有模型的输入都需要先进行归一化操作。通

2020-09-08 16:22:30 302

转载 【DCIC】数据分析学习:0.准备工作

学习主题比赛链接:https://data.xm.gov.cn/opendata-competition/index.html#/算法分析真实场景:A城市巡游⻋与网约⻋运营特征对比分析赛题简介:参赛方需依据平台提供的出租⻋(包括巡游⻋和网约⻋)GPS和订单数据, 对出租⻋运行的时间、空间分布特征进行量化计算 。并根据出租⻋的时空运营特征,对巡游⻋与网约⻋的融合发展提出相关建议。赛题说明:出租车作为城市客运交通系统的重要组成部分,以高效、便捷、灵活等优点深受居民青睐。出租车每天的运营中会产

2020-09-07 16:59:31 190

原创 支持向量机的原理与实践

学习目标了解支持向量机的理论 掌握支持向量机的sklearn函数调用支持向量机原理简介支持向量机(Support Vector Machine,SVM)是一个非常优雅的算法,具有非常完善的数学理论,常用于数据分类,也可以用于数据的回归预测中,由于其优美的理论保证和利用核函数对于线性不可分问题的处理技巧, 在上世纪90年代左右,SVM 曾红极一时。Demo实践首先我们利用 sklearn 直接调用 SVM 函数进行实践尝试。Step1:库函数导入## 基础函数库import...

2020-08-26 09:59:41 3736

原创 数据结构与算法之查找-经典题目解析

目录35. 搜索插入位置202. 快乐数205. 同构字符串242. 有效的字母异位词290. 单词规律349. 两个数组的交集350. 两个数组的交集 II410. 分割数组的最大值451. 根据字符出现频率排序540. 有序数组中的单一元素35. 搜索插入位置难度 简单题目:给定一个排序数组和一个目标值,在数组中找到目标值,并返回其索引。如果目标值不存在于数组中,返回它将会被按顺序插入的位置。你可以假设数组中无重复元素。思路:首先排序数组,

2020-08-25 14:43:26 891

原创 决策树的原理与实践

目录学习目标决策树的简介决策树的应用决策树构建的伪代码决策树生成算法:ID3、C4.5、CART1.ID3简介:特征选择(属性划分)方式:缺点:C4.5简介:特征选择(属性划分)方式:剪枝策略:缺点:CART简介:特征选择(属性划分)方式:缺失值处理:剪枝策略:类别不平衡:回归树:用自己的理解讲讲决策树算法?决策树如何防止过拟合?Demo实践基于企鹅数据集的决策树实战sklearn.tree.Decisi

2020-08-21 14:12:18 1710

原创 动态规划的思想与经典题目

动态规划简介动态规划的经典题目5. 最长回文子串难度 中等题目:给定一个字符串s,找到s中最长的回文子串。你可以假设s的最大长度为 1000。思路:前提:对于一个子串而言,如果它是回文串,并且长度大于2,那么将它首尾的两个字母去除之后,它仍然是个回文串。 状态:dp[i][j] 表示子串 s[i..j] 是否为回文子串。 状态转移方程:dp[i][j] = (s[i] == s[j]) and dp[i+1][j-1] 边界条件:(j - 1) - (i + 1) ...

2020-08-21 13:25:58 341

原创 分治法的思想与经典题目

目录分治法简介分治法主定理分治算法的时间复杂度分治法的基本步骤分治法的使用条件分治法的经典题目50. Pow(x, n)53. 最大子序和169. 多数元素分治法简介分治法,即“分而治之”,就是将原问题分解为几个规模较小但是类似于原问题的子问题,递归求解这些子问题, 然后再合并这些问题的解来建立原问题的解。分治法主定理分治法通常遵守一种通用模式:在解决规模为n的问题时,总是先递归地求解a个规模为n/b的子问题,然后在时间内将子问题的解合并起来。分治算法的.

2020-08-18 20:35:57 970

原创 逻辑回归的原理与实践

# 1.学习目标* 了解**逻辑回归**的理论* 掌握**逻辑回归**的**sklearn**函数调用使用并将其运用到鸢尾花数据集预测# 2.逻辑回归的应用逻辑回归模型广泛用于各个领域,包括机器学习,大多数医学领域和社会科学。例如,最初由Boyd 等人开发的创伤和损伤严重度评分(TRISS)被广泛用于预测受伤患者的死亡率,使用逻辑回归 基于观察到的患者特征(年龄,性别,体重指数,各种血液检查的结果等)分析预测发生特定疾病(例如糖尿病,冠心病)的风险。逻辑回归模型也用于预测在给定的过程中,系统或产品

2020-08-17 23:10:32 1155

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除