自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 大数据分析的统计学基础-P1

随机试验。

2023-11-28 00:24:15 154

原创 【动态规划】完全平方数

leetcode 完全平方数

2022-01-27 17:52:39 823 1

原创 大数据风控 - 报表监控体系

大数据风控 - 报表监控体系1. 贷前监控2. 贷中监控3. 贷后监控在信贷反欺诈领域,报表监控也是风险管理过程中非常重要的工作内容,由于数据量大、数据维度多且涉及到多个环节,报表监控能够监控和分析客户在各个流程的状态,以便于策略人员了解资产质量、产品分布、模型效果等。以下为总结的一些可以监控的数据维度。1. 贷前监控贷前报表可以从业务、数据、模型等层面进行监控。业务层面:可以监控进件量、准入策略通过量(率)[如:人行征信]、内部风控策略通过量(率)、报单量(率)、审批通过量(率)、放款量(率),放

2021-06-05 16:13:54 1729 2

原创 评分卡建模基本流程

评分卡建模基本流程1. 什么是评分卡2. 评分卡分类3.评分卡的优缺点分析4. 评分卡的建模开发流程5. 部署与监控6.参考1. 什么是评分卡在贷款行业中,评分卡是用于衡量客户的还款能力的打分,也代表了客户未来一段时间内违约/逾期/失联可能性,评分卡分数越高代表客户资质越好,还款能力越强,一个典型的例子就是芝麻信用分。2. 评分卡分类根据使用的阶段,评分卡通常可以分为以下几类:申请评分卡【A卡(Application scorecard)】:在客户申请处理期,预测客户开户后一定时期内违约拖欠的风

2021-04-24 17:32:31 2093

原创 Python dict集合基本操作

dict基本操作1. dict创建2. dict添加元素3. dict删除元素1. dict创建字典是另一种可变容器模型,且可存储任意类型对象。有多种创建方式。方式1:创建空字典>>> dic = {}>>> type(dic)<type 'dict'> 方式2:赋值创建>>> dic = {'a’:1, 'b':2,'c':3}>>>dic{'a': 1, 'b': 2, 'c': 3}方式3:关

2021-04-21 22:07:43 268 1

原创 Python set集合基本操作

set基本操作1. 创建set2.新增元素3. 删除元素1. 创建setset() 函数创建一个无序不重复元素集,可进行关系测试,删除重复数据,还可以计算交集、差集、并集等。 a = {1,2,3}2.新增元素使用 add() 方法添加的元素,只能是数字、字符串、元组或者布尔类型(True 和 False)值,不能添加列表、字典、集合这类可变的数据,否则 Python 解释器会报错a = {1,2,3}a.add(5)>>aOut: {1, 2, 3, 5}>&g

2021-04-06 09:32:28 664 1

原创 聚类算法

目录1. 聚类任务2. 性能度量2.1 外部指标2.2 内部指标3. 距离计算3.1 有序数据3.2 无序数据3.3 混合数据4. 原型聚类4.1 k-means聚类5. 密度聚类6. 层次聚类1. 聚类任务聚类是一种常见的无监督算法,其主要任务是将数据集根据特征自动分为若干个不相交的子集,达到“物以聚类”的效果。每个子集称为一个“簇”,每个簇中的元素具有一定的相似性。聚类主要分为kmeans聚类、密度聚类(DBSCAN)、层次聚类等。2. 性能度量对于聚类的效果,我们也需要使用一些指标来评估其好坏

2020-12-08 23:17:27 378

原创 分类算法 - 支持向量机

这里写目录标题1. 简介2. 线性可分支持向量机2.1 支持向量与间隔2.2 目标函数2.3 对偶问题2.3 实例求解3. 线性不可分支持向量机4. 软间隔支持向量机与松弛向量5. 总结1. 简介支持向量机(support vector machine, svm)是一种二分类模型,它是定义在特征空间上的间隔最大的线性分类器,目的是寻找一个超平面对样本进行划分,其学习的策略是间隔最大化,可转换为求解一个凸二次规划问题,主要有以下三种类型:训练样本线性可分:硬间隔最大化学习一个线性可分svm训练样本近

2020-11-28 15:35:40 1143

转载 分类算法 - 逻辑回归(原理及求解)

逻辑回归为分类算法中的经典算法,虽称之为回归,但是其为分类模型,通常用于二分类问题,本文对书上、网上的帖子进行总结和整理,以回顾重温以前学的知识。这里写目录标题1. 逻辑回归模型1.1 Logistic 分布1.2 逻辑回归模型1.3 代价函数2. 逻辑回归模型求解2.1 梯度下降法2.2 牛顿法2.3 正则化2.3.1 L1 正则化2.3.2 L2 正则化3. 模型细节参考:1. 逻辑回归模型1.1 Logistic 分布首先给出Logistic 分布的定义,设X为连续型随机变量,X服从Logis

2020-11-15 12:31:06 542

原创 分类算法 - 决策树(构造、推导、计算、剪枝过程)

决策树是一种基本分类和和回归方法,本篇主要讨论分类决策树,主要从决策树的构造、决策树的修剪等方面进行介绍,本文主要参考《机器学习实战》、《统计学习方法》和网上的一些帖子,进行的总结学习。分类算法 - 决策树1.概念2. 决策树的构造2.1 特征选择2.1.1 信息增益2.1.2 信息增益率2.1.3 基尼指数2.2 决策树的生成2.2.1 ID3算法2.2.2 C4.5算法2.2.3 CART数算法2.3 剪枝3.决策树的存储4.决策树实例5. 总结6. 参考1.概念决策树是一种通过抓取数据中所隐含

2020-11-10 12:19:09 1672

原创 分类算法 - k近邻算法(原理、kd树)

目录1. 算法概述2. 模型三要素2.1 距离度量2.2 k值选择2.3 分类规则2. 算法流程3. 算法实现4.优缺点分析5.算法优化5.1 距离加权5.2 kd - tree 和 ball - tree6. 应用场景7. 参考1. 算法概述k近邻算法解决分类问题一种常见的方法,其主要思路是,根据给定距离度量,在训练集中找到目标点最近的k个样本的分类结果,经过分类规则,预测目标样本的分类。2. 模型三要素从算法概述可以得到3个重要的要素:距离、k值以及分类规则。2.1 距离度量k近邻一般特

2020-11-06 16:59:11 2122

原创 常用集成学习算法

常用集成学习算法1. 概念2. Bagging3. Boosting3.1 AdaBoost(Adaptive Boosting 算法)1. 概念集成算法是对几种机器学习的学习器进行组合,形成一个方差更小、偏差更小、或预测效果更好的模型。主要有bagging、boosting、stacking三种方法。2. Bagging图源:https://www.cnblogs.com/zongfa/p/9304353.html【步骤】Bootstrap: 从原始样本集中采用有放回抽样的方式抽取n个训练

2020-11-02 23:24:37 6981

转载 数据分析- 2012美国总统竞选赞助数据分析

数据分析- 2012美国总统竞选赞助数据分析导入有关的包1. 数据载入1.1 数据读取1.2 数据合并1.3 数据基本统计分析2. 数据清洗2.1 缺失值处理2.2 数据转换功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入导入有

2020-10-21 12:59:35 577

转载 常用特征选择

#常用特征选择方法特征选择对于数据科学家、已经机器学习有关研究人员非常重要,通过减少特征数量、增加模型泛化能力,减少过拟合,能够增加特征之间的理解,降低学习任务的难度,提升模型的效率。常用的特征选择法分为:目录1. 过滤式(filter)1.1 方差选择法1.2 相关系数法1.3 卡方检验法2. 包裹式(wrapper)3.嵌入式(embedding)1. 过滤式(filter)通过一定的统计方法对每个特征进行评分排序,然后按照一定的规则过滤出最优的特征子集,然后在训练学习器,由于过滤不需要考虑后续

2020-10-21 12:59:13 923

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除