自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 深入浅出Mysql 读书笔记

深入浅出mysql读书笔记索引背景: 因为索引可以提高检索速度。创建索引:CREATE INDEX index_name ON table (index_col_name(n));删除索引:DROP INDEX index_name ON table;原则:1)最好出现在WHERE子句中;2)使用唯一索引,且该列unique value 多样性比较多比较好,当然也不能全是unique值;3)使用短索引,如 colname(20),但是前提是能够对列进行有效区分;省空间,速度快;4)不要

2020-12-18 17:47:43 110 1

原创 2020-09-27

task --模型融合import pandas as pdimport numpy as npfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_selection import train_test_splitfrom sklearn import metricsfrom sklearn.metric

2020-09-27 23:55:53 186

原创 金融风控-贷款违约预测 -- task04

金融风控-贷款违约预测 – 建模调参今天有点挫败感,遇到了个bug,暂时没有搞定。大家都run的baseline,我一个人按照自己的理解做题,不知是好是坏,感觉不在一个频道上,不过,我这种自己做的,估计对整个流程的理解估计会比他们深吧。今天只跑了一个模型,低估了模型计算的计算量,另外,发现了另外一个不好的点,使用pycharm,每次都需要重新运行,很浪费时间。今天先贴下今天的战果吧,后面有结果再补充,组队学习完成了,但是学习还是没有完成的。本来计算用下面几个模型run的,但是今天只完成了随机森林。

2020-09-24 23:33:53 133

原创 金融风控-贷款违约预测 -- task03

金融风控-贷款违约预测 – task03特征工程方法总结如下:1)数据分箱2)对数变换,使变量更加服从正太分布3)onehot或者lablecoder 重编码变量4)特征组合现在了解还比较前,以后可以把各项内容再细化研究本次特征处理方式如下:n0-n14,与应变量的关系暂时没有深入研究。暂时打算做标准化处理。后面研究下别人的内容再进一步处理。希望明天的模型能有个好结果。...

2020-09-21 23:36:17 129

原创 金融风控-贷款违约预测 -- task02

金融风控-贷款违约预测今天是task02的打卡时间点,作为社畜,时间着实紧张。EDA结果不是很好。但是也是作为一种记录,记录自己的学习过程。看到群里的小伙伴拿到0.73的成绩,我觉得,我也是可以的,周末好好加油学习,你也是可以的。本章主要是进行数据可视化,探索可自变量与应变量之间的关系首先看了变量类型,里面共有5个类别型变量,其余都为数值型变量。但是看了其分布,感觉这些数值型变量中,还有一些是类别型变量。1 ) 贷款违约风险,及label Y变量“isDefault”,分布如下从这个比例来看

2020-09-18 23:20:09 242

原创 零基础入门金融风控-贷款违约预测

零基础入门金融风控-贷款违约预测非常开心能和各位大佬一起学习一起进步,作为小白,今天在这里记录本次课程的点点滴滴。赛题描述本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第四场 —— 零基础入门金融风控-贷款违约预测。赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。赛题数据描述赛题以预测用

2020-09-15 21:53:43 502

原创 Spark SQL学习之旅

Spark SQL学习总结由于一门课程的总结上说:无论编程效率还是计算速度,都是非常快,因此为了走捷径,先选择学习sql部分其实之前已经看了一段时间spark的官方文档,但是看只是看,不敲总是没有深刻的理解,因此开始敲代码之旅最初买的spark学习书籍是基于1.x版本的。因此一直纠结于Spark对象初始化。#1.x 版本入口–pythonfrom pyspark import SparkConf,SparkContextconf=SparkConf().setMaster("loca

2020-07-07 21:48:12 92

原创 Spark.sql Row

Row 使用代码如下:from pyspark.sql import SparkSessionfrom pysark.sql import Rowrow =Row(name="andi",age=26)>row[name]>andi>row[age]>29>row2=Row('i love rui')>row2[0]><Row('i love rui')>写以上代码的原因主要是example/word_count.py下

2020-07-07 21:46:13 486

原创 Spark 安装

spark 安装本文注意记载了笔者学习使用的spark的过程。平台:win10 +ubuntu安装方法: pip install pyspark安装包文件大小217M安装顺利,无报错。

2020-05-27 22:02:49 135

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除