qq_47506661-CSDN博客

原创深入浅出Mysql 读书笔记

深入浅出mysql读书笔记索引背景：因为索引可以提高检索速度。创建索引：CREATE INDEX index_name ON table (index_col_name(n));删除索引：DROP INDEX index_name ON table;原则：1）最好出现在WHERE子句中；2）使用唯一索引，且该列unique value 多样性比较多比较好，当然也不能全是unique值；3）使用短索引，如 colname（20），但是前提是能够对列进行有效区分；省空间，速度快；4）不要

2020-12-18 17:47:43 214 1

原创 2020-09-27

task --模型融合import pandas as pdimport numpy as npfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_selection import train_test_splitfrom sklearn import metricsfrom sklearn.metric

2020-09-27 23:55:53 253

原创金融风控-贷款违约预测 -- task04

金融风控-贷款违约预测 – 建模调参今天有点挫败感，遇到了个bug，暂时没有搞定。大家都run的baseline，我一个人按照自己的理解做题，不知是好是坏，感觉不在一个频道上，不过，我这种自己做的，估计对整个流程的理解估计会比他们深吧。今天只跑了一个模型，低估了模型计算的计算量，另外，发现了另外一个不好的点，使用pycharm，每次都需要重新运行，很浪费时间。今天先贴下今天的战果吧，后面有结果再补充，组队学习完成了，但是学习还是没有完成的。本来计算用下面几个模型run的，但是今天只完成了随机森林。

2020-09-24 23:33:53 187

原创金融风控-贷款违约预测 -- task03

金融风控-贷款违约预测 – task03特征工程方法总结如下：1）数据分箱2）对数变换，使变量更加服从正太分布3）onehot或者lablecoder 重编码变量4）特征组合现在了解还比较前，以后可以把各项内容再细化研究本次特征处理方式如下：n0-n14,与应变量的关系暂时没有深入研究。暂时打算做标准化处理。后面研究下别人的内容再进一步处理。希望明天的模型能有个好结果。...

2020-09-21 23:36:17 211

原创金融风控-贷款违约预测 -- task02

金融风控-贷款违约预测今天是task02的打卡时间点，作为社畜，时间着实紧张。EDA结果不是很好。但是也是作为一种记录，记录自己的学习过程。看到群里的小伙伴拿到0.73的成绩，我觉得，我也是可以的，周末好好加油学习，你也是可以的。本章主要是进行数据可视化，探索可自变量与应变量之间的关系首先看了变量类型，里面共有5个类别型变量，其余都为数值型变量。但是看了其分布，感觉这些数值型变量中，还有一些是类别型变量。1 ）贷款违约风险，及label Y变量“isDefault”，分布如下从这个比例来看

2020-09-18 23:20:09 326

原创零基础入门金融风控-贷款违约预测

零基础入门金融风控-贷款违约预测非常开心能和各位大佬一起学习一起进步，作为小白，今天在这里记录本次课程的点点滴滴。赛题描述本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第四场 —— 零基础入门金融风控-贷款违约预测。赛题以金融风控中的个人信贷为背景，要求选手根据贷款申请人的数据信息预测其是否有违约的可能，以此判断是否通过此项贷款，这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景，解决实际问题，帮助竞赛新人进行自我练习、自我提高。赛题数据描述赛题以预测用

2020-09-15 21:53:43 635

原创 Spark SQL学习之旅

Spark SQL学习总结由于一门课程的总结上说：无论编程效率还是计算速度，都是非常快，因此为了走捷径，先选择学习sql部分其实之前已经看了一段时间spark的官方文档，但是看只是看，不敲总是没有深刻的理解，因此开始敲代码之旅最初买的spark学习书籍是基于1.x版本的。因此一直纠结于Spark对象初始化。#1.x 版本入口–pythonfrom pyspark import SparkConf,SparkContextconf=SparkConf().setMaster("loca

2020-07-07 21:48:12 132

原创 Spark.sql Row

Row 使用代码如下：from pyspark.sql import SparkSessionfrom pysark.sql import Rowrow =Row(name="andi",age=26)>row[name]>andi>row[age]>29>row2=Row('i love rui')>row2[0]><Row('i love rui')>写以上代码的原因主要是example/word_count.py下

2020-07-07 21:46:13 595

原创 Spark 安装

spark 安装本文注意记载了笔者学习使用的spark的过程。平台：win10 +ubuntu安装方法： pip install pyspark安装包文件大小217M安装顺利，无报错。

2020-05-27 22:02:49 210

qq_47506661的博客