Learning
R_TRIG
这个作者很懒,什么都没留下…
展开
-
Task04:建模与调参(3天)
Task04:建模与调参(3天)原创 2020-09-24 23:55:52 · 178 阅读 · 0 评论 -
Task3 特征工程
此部分为零基础入门金融风控的 Task3 特征工程部分,带你来了解各种特征工程以及分析方法,欢迎大家后续多多交流。赛题:零基础入门数据挖掘 - 零基础入门金融风控之贷款违约3.1 学习目标学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法 学习特征交互、编码、选择的相应方法 完成相应学习打卡任务,两个选做的作业不做强制性要求,供学有余力同学自己探索3.2 内容介绍数据预处理 缺失值的填充 时间格式处理 对象类型特征转换到数值 异常值处理 基于3segama原则原创 2020-09-21 23:51:52 · 1330 阅读 · 0 评论 -
Task2 数据分析
Task2 数据分析此部分为零基础入门金融风控的 Task2 数据分析部分,带你来了解数据,熟悉数据,为后续的特征工程做准备,欢迎大家后续多多交流。赛题:零基础入门数据挖掘 - 零基础入门金融风控之贷款违约目的: 1.EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模. 2.了解变量间的相互关系、变量与预测值之间的存在关系。 3.为特征工程做准备 2.1 学习目标学习如何对数据集整体概况原创 2020-09-19 00:03:13 · 211 阅读 · 0 评论 -
数据挖掘实践(金融风控)Task1:赛题理解(2天)
赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。.1 学习目标理解赛题数据和目标,清楚评分体系。完成相应报名,下载数据和结果提交打卡(可提交示例结果),熟悉比赛流程1.2 了解赛题赛题概况 数据概况 预测指标 分析赛题1.2.1 赛题概况比赛要求参赛选手根据给定的数据集,建立模型,预测原创 2020-09-15 23:56:51 · 822 阅读 · 0 评论 -
python Task4:列表(1天)
task4原创 2020-07-28 23:45:51 · 175 阅读 · 0 评论 -
Python学习笔记 2020.7.24 异常处理
练习题2.1.编写以一个python程序来查找那些可以被7除以5的整数的数字,介于1500到2700之间。t = 1500for i in range(1500, 2700): if i % 7 == 0 and i % 5 ==0: print(i) t +=12.2.龟兔赛跑v1,v2,t,s,l = map(int,input().split())if v1<=100 and v2<=100 and t<=..原创 2020-07-24 19:57:34 · 317 阅读 · 0 评论 -
Python学习笔记 2020.7.22
Python学习笔记2020.7.221. 怎样对python中的代码进行注释 答:a.井号注释单行代码: # b.三个单引号或三个双引号注释语句块: ''' 或者" " " c.井号加两个百分号画出语句块分界线: #%%2. python有哪些运算符,这些运算符的优先级是怎样的?答:算术运算符 比较(关系)运算符 赋值运算符 逻辑运算符 位运算符 成员运算符 身份运...原创 2020-07-22 23:41:04 · 258 阅读 · 0 评论 -
百毒不侵打卡01
线性回归 day1假如你正在实现一个全连接层,全连接层的输入形状是7×8,输出形状是7×1,其中7是批量大小,则权重参数w和偏置参数b的形状分别是____和____A. 1×8,1×1B. 1×8,7×1C. 8×1,1x1D. 8×1,7×1参考答案:C解析:通过输入和输出可知权重参数w的形状是8x1,因为输入x权重=输出,即7x8 x 8x1 = 7x1,中间的两个8约掉...原创 2020-02-14 23:10:06 · 327 阅读 · 0 评论 -
Task06:朴素贝叶斯
理论部分相关概念 生成模型 判别模型 朴素贝叶斯基本原理 条件概率公式 乘法公式 全概率公式 贝叶斯定理 特征条件独立假设 后验概率最大化 拉普拉斯平滑 朴素贝叶斯的三种形式 高斯型 多项式型 伯努利型 极值问题情况下的每个类的分类概率 下溢问题如何解决 零概率问题如何解决 sklearn参数详解实战部分利用sklearn...原创 2020-01-21 13:32:16 · 145 阅读 · 0 评论 -
Task05:聚类
理论部分相关概念 无监督学习 聚类的定义 常用距离公式 曼哈顿距离 欧式距离 闵可夫斯基距离 切比雪夫距离 夹角余弦 汉明距离 杰卡德相似系数 杰卡德距离 K-Means聚类:聚类过程和原理、算法流程、算法优化(k-means++、Mini Batch K-Means) 层次聚类:Agglomerative Clustering过程和原理 密...原创 2020-01-19 23:32:48 · 191 阅读 · 0 评论 -
Task04:决策树
理论部分特征选择:信息增益(熵、联合熵、条件熵)、信息增益比、基尼系数 决策树生成:ID3决策树、C4.5决策树、CART决策树(CART分类树、CART回归树) 决策树剪枝 sklearn参数详解实战部分利用sklearn解决分类问题和回归预测。 sklearn.tree.DecisionTreeClassifier sklearn.tree.DecisionTreeRegr...原创 2020-01-19 23:23:41 · 168 阅读 · 0 评论 -
Task03:逻辑回归
理论部分逻辑回归与线性回归的联系与区别 模型建立:逻辑回归原理、逻辑回归模型 学习策略:逻辑回归损失函数、推导及优化 算法求解:批量梯度下降 正则化与模型评估指标 逻辑回归的优缺点 样本不均衡问题 sklearn参数详解案例: import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%m...原创 2020-01-13 21:00:34 · 235 阅读 · 0 评论 -
Task02:线性回归
模型建立:线性回归原理、线性回归模型todo 学习策略:线性回归损失函数、代价函数、目标函数todo 算法求解:梯度下降法、牛顿法、拟牛顿法等todo 线性回归的评估指标todo sklearn参数详解todo 案例: import numpy as npfrom sklearn.linear_model import LinearRegressionimport ma...原创 2020-01-12 21:47:27 · 257 阅读 · 0 评论 -
Task01:机器学习概述
机器学习面试问题:机器学习 :机器学习是什么,怎么来的,理论基础是什么,为了解决什么问题。机器学习是从已知的数据和答案中寻找出某种规则。区别传统编程基于规则和数据,得到一个答案。 机器学习以计算机为工具和平台,以数据为研究对象,以学习方法为中心,是概率论,线性代数,信息论,最优化和计算机科学等多个领域的交叉学科。 应用于自动驾驶,人脸识别,垃圾邮件检测,信用风险预测,工业制造缺线检测,商...原创 2020-01-09 21:47:11 · 206 阅读 · 0 评论 -
机器学习学习入门路线
机器学习学习入门路线一般来说,机器学习的课程涉及了很多数学、统计概率、以及优化方向的知识,大概包括: - 线性代数:矩阵/张量乘法、求逆,奇异值分解/特征值分解,行列式,范数等 - 统计与概率:概率分布,独立性与贝叶斯,最大似然(MLE)和最大后验估计(MAP)等 - 信息论:基尼系数,熵(Entropy)等 - 优化:线性优化,非线性优化(凸优化/非凸优化)以及其衍...原创 2018-04-26 09:10:41 · 284 阅读 · 0 评论