自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (1)
  • 问答 (4)
  • 收藏
  • 关注

原创 【机器学习】评价指标PSI

话说这个我研一数据挖掘学过,但是现在一点点也不记得了

2019-06-26 14:01:00 17268 5

原创 【Pandas】iloc选取数据&数据分箱

pandas中利用 .iloc 和 .loc 选取数据 Pandas 基本的数据结构是 Series(数组) 和 DataFrame(类似二维数组),Pandas 提供了 Index 对象,每个 Series 都会带有一个对应的Index,用来标记不同的元素,Index 的内容不一定是数字,也可以是字母、中文等,它类似于SQL中的主键Pandas 读取文件时候,注意文件的存储路径不能...

2019-06-26 10:53:18 526

原创 【Hadoop】基础概念1

hadoop核心组件1. hadoop包含的模块: Hadoop common:提供一些通用的功能支持其他hadoop模块。 Hadoop Distributed File System:即分布式文件系统,简称HDFS。主要用来做数据存储,并提供对应用数据高吞吐量的访问。 Hadoop Yarn:用于作业调度和集群资源管理的框架。 Hadoop MapRed...

2019-06-24 18:57:12 149

原创 【机器学习】Xgboost(下)近似分位数算法和使用

近似算法对于连续型特征值,当样本数量非常大,该特征取值过多时,遍历所有取值会花费很多时间,且容易过拟合。因此XGBoost思想是对特征进行分桶,即找到l个划分点,将位于相邻分位点之间的样本分在一个桶中。在遍历该特征的时候,只需要遍历各个分位点,从而计算最优划分。从算法伪代码中该流程还可以分为两种,全局的近似是在新生成一棵树之前就对各个特征计算分位点并划分样本,之后在每次分裂过程中都采用近似划分...

2019-06-24 18:13:20 1998 1

原创 【风控实践】信用卡欺诈检测(下)

传送门:【风控实践】信用卡欺诈检测(上)针对不平衡数据,采用上采样的方法STOME算法进行分析。处理数据import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.style.use('ggplot')from imblearn.over_sampling import SMOTEfrom...

2019-06-24 11:13:31 809

原创 【风控实践】ATEC蚂蚁开发者大赛-支付风险识别

赛题的目的是根据历史交易数据识别当前交易是否为欺诈交易。举办方给出由一段时间内有正负标签样本的支付行为样本和没有标签的支付行为样本组成的训练数据集和一段时间后的某个时间范围内的支付行为样本构成的测试数据集,希望选手们通过机器学习算法和对无标签数据的挖掘在训练集上训练出性能稳定时效性好的模型,能够在测试集上对交易的风险进行精准判断。赛题主页:https://dc.cloud.alipay.co...

2019-06-21 15:02:26 3298 2

原创 【风控实践】信用卡欺诈检测(上)

source:https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasetsCorrecting Previous Mistakes from Imbalanced Datasets:Never test on the oversampled or undersampled datase...

2019-06-21 14:40:41 1442

原创 【剑指offer】字符串的排列

题目描述输入一个字符串,按字典序打印出该字符串中字符的所有排列。例如输入字符串abc,则打印出由字符a,b,c所能排列出来的所有字符串abc,acb,bac,bca,cab和cba。输入描述:输入一个字符串,长度不超过9(可能有字符重复),字符只包括大小写字母。# -*- coding:utf-8 -*-class Solution: def Permutation(s...

2019-06-20 23:59:33 104

原创 【机器学习】KS值

KS检验-风控角度分类模型评判指标 - KS曲线与KS值从统计角度,我们知道KS是分析两组数据分布是否相同的检验指标。在金融领域中,我们的y值和预测得到的违约概率刚好是两个分布未知的两个分布。好的信用风控模型一般从准确性、稳定性和可解释性来评估模型。一般来说。好人样本的分布同坏人样本的分布应该是有很大不同的,KS正好是有效性指标中的区分能力指标:KS用于模型风险区分能力进行评估,KS指...

2019-06-20 12:04:09 20345 2

原创 【Git】常用命令学习笔记

Case 1cd alg-ocr-utils #(在master)git add . #(在master)git commit -m "images enhancement" #(在master)➜ alg-ocr-utils git:(new_text_detect-rule) ✗ git checkout -b "new_text_detect-rule"...

2019-06-18 00:07:59 92

原创 【深度学习】SENet学习总结

任意方向文本Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation这篇论文中,接触到了这个block从表中看出,SE-VGG16的对于模型性能的提升。言归正传

2019-06-10 16:20:56 3039

IDEA中Scala官方插件

scala version:2020.2.27 IDEA verison: 2020.2-2020.2.2 官网下载,用于网速慢的情况

2020-09-18

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除