自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

一夜奈何梁山

专注技术

  • 博客(30)
  • 资源 (6)
  • 收藏
  • 关注

原创 Django商城前台项目

目录1: 项目初始化1.1: 虚拟环境命令:1.2: Django项目的创建1.3: manage.py 中指定运行的配置文件地址:1.4:BASE_DIR问题:1.5: 指定模板文件夹的位置:1.6:Mysql数据库的配置1.7: 配置Redis1.8: 配置日志:1.9:主机域名映射和设置django白名单:1.10: django创建子应用:2:Django RESTful 设计风格2.1:HTTP接口/Web接口/网络API2.2:Django Restful设计风格:3:用户模型类的设计3.1:

2020-12-30 15:22:38 1709

原创 风控项目05---特征筛选

目录一:单特征分析:1.1: 覆盖度:1.2: 区分度:1.3:相关性:1.4:使用toad库来过滤大量的特征:1.5 : 稳定性:二:多特征筛选:2.1: 星座特征:2.2: Boruta算法:三:内部特征的监控:四:外部特征的评估:一:单特征分析:问题: 什么是好的特征?答: 覆盖度高的,区分度高的,相关性符合的,稳定性强的。1.1: 覆盖度:问题: 覆盖率你是如何计算的?答: 计算,缺失率 和 零值率。缺失率 = 缺失的数量/带有标签的总数量。零值率 = 值为0的数量/带有标签的总数量。

2020-12-17 21:23:27 2494 1

原创 风控项目04---特征构造

目录一:数据准备:1.1: 数据的内在联系:1.2: 样本设计和特征框架:二:特征构造:2.1: 静态信息特征和时间截面特征:2.2: 时间序列特征:2.3: 时间衍生序列案例:2.4:特征交叉(特征组合):2.5:特征变化:2.4:用户关联特征:一:数据准备:1.1: 数据的内在联系:1: 关系的种类:一对一:一对多:多对多:2: 梳理关系画出ER图:例如下图:3:明确任务是做什么?例如:分析厚数据*常登陆*首单用户的逾期情况数据量大,经常登录,第一次下单的逾期情况分析:4: 可

2020-12-17 11:52:54 781 1

原创 风控项目03---业务规则挖掘

目录一:规则挖掘介绍:二:规则挖掘案例:2.1: 案例的背景:2.2:利用决策树解决问题:1:了解查看数据的基本信息:2:生成新的特征列:一:规则挖掘介绍:1:常见的风险规避的手段: AI模型, 规则。2:使用一系列判断逻辑对客户群体进行区分,不同群体逾期风险有显著差别,如果一条规则将用户划分到高风险组,则直接拒绝,如果划分到低风险组则进入到下一规则。3:规则,可以快速使用,便于业务人员理解,但判断相对简单粗暴一些,单一维度不满足条件直接拒绝。4:AI模型,开发周期长,对比使用规则更复杂,但更灵

2020-12-16 19:25:05 852

原创 python笔试题(一)

1:一行代码实现1-100的和:print(sum(range(1, 101)))2:列出5个python的标准库:os,sys,re,math,datetime3:python实现列表去重的方法:list1 = [1, 2, 1, 2]print(list(set(list1)))4:python的内置数据类型,以及哪些是可变类型?哪些是不可变类型?:6种:数字,字符串,列表,元祖,字典,集合可变类型:列表,字典,集合不可变类型:数字,字符串,元祖5:with方法打开处理文件

2020-12-16 15:59:30 3588 1

原创 风控项目2---风控建模流程

目录一:了解信贷风险:1: 了解信贷业务:2:了解信贷业务中的风险控制:二:信贷产品与风险?2.1:说说你知道哪些信贷产品?2.2:说说上面的信贷产品都有哪些风险?三:风控常见的术语:四:信贷审批业务的基本流程:五:ABC评分卡是什么?区别是什么?六:风控模型的流程?一:了解信贷风险:1: 了解信贷业务:1: 如何获利?通过放款收回本金和利息,扣除成本后获得利润2:信贷如何把控?贷款平台预测有信贷需求用户的还款情况,然后将本金借贷给还款概率大的用户。2:了解信贷业务中的风险控制:问题一: 你

2020-12-16 10:52:19 3303

原创 风控项目01---风控业务统计处理

目录一:查看数据的基本信息:二:原有数据的预处理:三:分析增加新的数据:一:查看数据的基本信息:1:加载数据:import pandas as pd import datetime from pyecharts.charts import * from pyecharts import options as optsdf1 = pd.read_excel('data/业务数据.xls') #要使用原始数据构建新指标,所以保留原始数据,copy新的数据,在新的数据中创建新指标 df2 = d

2020-12-13 22:47:25 1044 3

原创 (九)机器学习---决策树

目录一:方差与偏差:二:决策树的介绍:三:代码实现决策树:四:熵:1:特征选择问题:2:熵的概念:3:代码实现熵:五:信息增益(熵增益):1: 信息增益的描述:2: 信息增益算法:一:方差与偏差:1:方差:描述的是数据本身的一种分布情况。2:偏差:实验值与目标值之间的差异程度。3:如果方差很小,对我们模型来说是没有任何帮助的,我们就会去掉这些值。例如:身高都是1.6米左右,我们就去掉身高这一列。二:决策树的介绍:1: 决策树天然解决多分类问题。2:决策树可以做多分类问题。3:决策树是

2020-12-12 16:52:16 477 1

原创 (十一)机器学习---集成学习GBDT算法详解

一:CART回归树问题一:GBDT为什么用CART回归树,而不用CART分类树?答:因为GBDT每次迭代要拟合的是梯度值,是连续值所以要⽤回归树。问题二:CART回归树划分最佳的划分点的判断标准是什么?答:回归树因为样本标签是连续数值,所以再使⽤熵之类的指标 不再合适,取⽽代之的是平⽅误差,它能很好的评判拟合程度。...

2020-12-12 16:26:08 532

原创 (十二)机器学习---聚类算法概述

目录一:聚类算法描述:二:聚类算法的API使用:三: k-means聚类:1:聚类算法的计算流程:2:聚类算法的案例分析:四:模型评估方案:1:误差平方和(SSE):2:“肘”方法确定K值3:轮廓系数法:4:CH系数:五:聚类算法的优化:1:聚类算法存在哪些缺点?2:Canopy算法过程:3:Canopy算法的优缺点:4:K-means++:5:一:聚类算法描述:1:聚类算法属于无监督学习,所以是没有标签的,千万不能将聚类说成分类。2:聚类算法的作用:将相似的样本自动的归类到一个类别中。3:与聚类

2020-12-12 08:38:05 1769

原创 (十)机器学习---集成学习思想概述

目录一:什么是集成学习?二:Bagging介绍:一:什么是集成学习?1:集成学习 (Ensemble Learning) 算法的基本思想:将多个分类器组合,从而实现一个预测效果更好的集成分类器。2: 工作原理:生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。3:集成算法的分类:Bagging,Boosting 和Stacking等类型。二:Bagging介绍:...

2020-12-10 21:25:35 1149

原创 (七)机器学习---逻辑回归

目录一:逻辑回归介绍:二:逻辑回归问题的原理:三:逻辑回归的损失问题:四:逻辑回归的优化:五:逻辑回归API介绍:六:分类评估方法:1:混淆矩阵:2:精准率和召回率:3:TPR 与FPR:4:ROC曲线:5:AUC指标:一:逻辑回归介绍:1: 逻辑回归解决的是分类问题,不是回归问题。2:逻辑回归解决的是二分类问题。3: 逻辑回归问题处理的样本大多数是样本不均衡的。4:逻辑回归用到的业务场景:广告点击率,是否为垃圾邮件,是否患病,金融诈骗,虚假账号。二:逻辑回归问题的原理:1:逻辑回归的原

2020-12-09 13:59:45 445 1

原创 (六)机器学习---销售额预测分析(线性回归分析案例)

目录一: 背景:二:数据概况分析:三:单变量分析:一: 背景:1: 分析的目的:对各类因素投入产出比做出评估。2: 分析的数据:电视广告,线上,线下,门店内,微信渠道等促销投入和销售额之间的关系。3:数据的说明:4: 分析流程:二:数据概况分析:1:查看数据的前5条记录:2:查看数据的基本信息:3:统计各个列哪些存在空值,以及空值的数量:由于缺失的不多,后期考虑直接删除。三:单变量分析:1:数据分布信息:各个列的最大值,平均值,中位数,众数等。2:使用de

2020-12-08 22:17:50 8813 8

原创 (五)机器学习---线性回归

目录一:波士顿房价预测:1:使用正规方程求解:2:使用梯度下降算法:二:过拟合和欠拟合:一:波士顿房价预测:1:使用正规方程求解:1:导包:from sklearn.datasets import load_bostonfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.metrics import mean_square

2020-12-08 17:06:17 462

原创 (四)机器学习---线性回归简单介绍

目录一:线性回归介绍:1: 线性回归的应用场景:2:定义与公式:二:线性回归API使用:三:求导回顾:1:常见函数的导数:2:导数的四则运算:四:线性回归的损失和优化1:损失函数的定义:2:正规方程:3:梯度下降:4:正规方程和梯度下降的对比:一:线性回归介绍:1: 线性回归的应用场景:1:房价预测。2:销售额度预测。3:贷款额度预测。2:定义与公式:1:线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一

2020-12-07 13:17:14 1255

原创 (三)机器学习----KNN算法的案例

目录一:KNN算法的优缺点:1:优点:2:缺点:二:预测facebook签到位置:1:项目描述:2: 数据集描述:3:步骤分析:4:代码实现:一:KNN算法的优缺点:1:优点:1:天然能够解决多分类问题。2:思想简单,效果强大。3:使用k-近邻算法还可以解决回归问题。2:缺点:1:效率低下:如果训练集有m个样本,n个特征,则预测每一个新的数据,需要O(m*n)的时间复杂度。(计算每个点的距离)1.1:优化方案:使用树结构:K-D tree、Ball-Tree,即便如此,k-近邻算法仍

2020-12-07 10:36:47 1602 1

原创 (二)机器学习---K近邻算法(KNN)

目录一:K邻近算法介绍:1:欧拉距离:2:使用K邻近算法实现分类:3: sklearn中knn算法的应用:4:自己写代码模拟KNN算法(了解):二:划分数据集:三:划分精确度:四:超参化:五:归一化:六:案例分析:一:K邻近算法介绍:1:首先要有原始已知标签的数据。2:把需要预测的点和所有已知的点计算距离。3:找到和待遇测点最近的K个点。4:根据K个点的标签确定待测点的标签。KNN算法可以做回归问题,也可以做分类问题。knn算法没有得到模型,它是机器学习中唯一一个不需要训练过程的算法。

2020-12-07 09:22:37 1052

原创 (一)机器学习---概述

目录一:人工智能概述:1:人工智能应用的场景:2:人工智能,机器学习,深度学习的关系:二:机器学习概述:1:什么是机器学习?2:机器学习的工作流程:3:数据集:4:数据的类型:5:数据分割:6:数据的基本处理:7:特征工程:8:机器学习:9:模型评估:三:机器学习算法分类:1:监督学习2:无监督学习:3:半监督学习:4:强化学习:四:模型的评估:1:分类模型评估:2:回归模型评估:3:拟合:一:人工智能概述:1:人工智能应用的场景:1:人脸识别技术,图像识别技术。2:机器翻译:谷歌翻译,有道翻译。

2020-12-04 21:12:37 462

原创 (十六) Pyecharts绘图

一:准备工作:1:加载招聘信息:2: 安装Pyecharts:一:柱状图:1: 分析哪些城市在数据分析的岗位多::2:绘制柱状图:from pyecharts import options as optsfrom pyecharts.charts import Barc = ( Bar() # 创建柱状图 .add_xaxis(city_job_top20.index.tolist()) #添加x轴数据 .add_yaxis('数据分析就业岗位数量', city

2020-12-04 19:13:57 3590 1

原创 (十五)Seaborn画图

目录一:Seaborn介绍:二:单变量图:三:双变量的图:四:多变量的图:五:Seaborn主题和样式:一:Seaborn介绍:1:Seaborn是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn能做出很具有吸引力的图,而使用matplotlib就能制作具有更多特色的图。2:Seaborn和Pandas的API配合的很好,使用DataFrame/Series的数据就可以绘图。案例:二:单变量图:三:双变量的图:四:多变量的图:

2020-12-04 17:48:58 2333

原创 (十四)Pandas绘图

目录一:Pandas单变量可视化:1: 柱状图:一:Pandas单变量可视化:1: 柱状图:案例:将所有的葡萄酒品牌按照产区分类,看看哪个产区的葡萄酒品种多。

2020-12-04 09:53:02 1078

原创 (十三)Python数据可视化(Matplotlib绘图)

目录一:数据可视化常用的库:二:Matplotlib绘图:1: Matplotlib绘图入门:2:matplotlib 数据可视化案例:3:使用matplotlib绘制统计图:3.1: 直方图:3.2:散点图:一:数据可视化常用的库:二:Matplotlib绘图:1: Matplotlib绘图入门:1:作图的两种方法—状态接口:2: 作图的两种方法—面向对象:2:matplotlib 数据可视化案例:3:使用matplotlib绘制统计图:3.1: 直方图:1:直方图一般用

2020-12-03 21:47:07 530

原创 (十二)datetime数据类型

目录一:python的datetime类型:二:pandas中的数据转换成datetime:三:提取日期的各个部分:四:日期运算和Timedalta:5: 处理股票数据:6:日期范围:一:python的datetime类型:二:pandas中的数据转换成datetime:1: 加载数据:2:转换成datetime类型:3:如果数据中包含日期时间数据,可以在加载的时候,通过parse_dates参数指定,则直接转换成datetime类型:三:提取日期的各个部分:1: 提取数据的简单部分:

2020-12-03 20:39:29 15009 1

原创 (十一)数据透视表

一:透视表概述:透视表,就是长数据转换成宽数据二:零售会员数据分析:1:业务背景介绍:2:会员存量,增量分析:1:每月存量,增量是最基本的指标,通过会员数量考察会员运营情况。0: 加载信息:1: 需要按月统计注册的会员数量,注册时间原始数据需要处理成年-月的形式:2:根据 “注册年月” 这一列进行分组, 然后在组内取出会员卡号进行统计数量。3:使用数据透视表实现相同的功能:4:计算存量 cumsum 对某一列 做累积求和 1 1+2 1+2+3 1+2+3+4 …:5:

2020-12-03 19:19:28 637

原创 (十)分组操作

目录一: 聚合:1: 单变量分组聚合:2: Pandas内置的聚合方法:3: 聚合函数:二:转换:三:过滤:四:分组:一: 聚合:1: 单变量分组聚合:2: Pandas内置的聚合方法:案例:根据continent分组,然后计算多个统计量:3: 聚合函数:1:使用agg进行聚合:2:使用aggregate进行聚合:3:如果想在聚合的时候,使用非Pandas或其他库提供的计算, 可以自定义函数,然后再aggregate中调用它。4: 自定义函数可以有多个参数, 第一个参数接受来自

2020-12-03 11:17:03 671

原创 GIL锁的问题

目录一:并发与并行:二:进程与线程:三:GIL锁的介绍:1:引入GIL锁的原因?四:面试问题:1:GIL锁优点和缺点?2:有了GIL锁是否意味着线程就安全了?3:互斥锁和GIL锁的区别?4:如何改善GIL锁带来的问题?5:GIL锁导致多核多线程比单核多线程更差?一:并发与并行:1:CPU交替处理多个任务,还是有两个程序,但是只有一个CPU,会交替处理这两个程序,而不是同时执行,只不过因为CPU执行的速度过快,而会使得人们感到是在“同时”执行,执行的先后取决于各个程序对于时间片资源的争夺。2:多个CP

2020-12-02 20:53:45 436 3

原创 (九)apply自定义函数

一:apply函数简介:1:Pandas提供了很多数据处理的API,但当提供的API不能满足需求的时候,需要自己编写数据处理函数, 这个时候可以使用apply函数。2:apply函数可以接收一个自定义函数, 可以将DataFrame的行/列数据传递给自定义函数处理。3:apply函数类似于编写一个for循环, 遍历行/列的每一个元素,但比使用for循环效率高很多。二:Series的apply方法:1: 简单测试Series的apply方法:2:如果定义的函数需要传递过个参数?三:Dat

2020-12-01 20:48:22 3163

原创 (八)Pandas 数据类型

目录一:Numpy的数据类型:1:ndarray: n维数组类型:2: pandas数据类型:二:数据类型转换:1: 转换成字符串对象:2:转换成数值类型:3:变量变成数值类型:三:分类数据:1:转换成category类型的数据:一:Numpy的数据类型:1:ndarray: n维数组类型:1: 使用ndarray进行数据的存储:2:ndarrayN维数组与python中多维数组的区别:1: 速度快。2:ndarray在内存中存储的是会开辟一段连续的空间,存储的是值,而python中的lis

2020-12-01 17:51:13 7406 1

原创 (七)整理数据

目录一:melt整理数据:1: melt参数信息:2: 将原有表重新构造成长表:3:修改列名:4: 固定多列转换少数列:4:对表进行拆分:二:stack整理数据:三: wide_to_long整理数据:四:使用unstack处理数据:一:melt整理数据:1: melt参数信息:从数据分析的角度,有时候我们需要把数据由"宽"数据,转换成”长”数据。2: 将原有表重新构造成长表:pew_long = pd.melt(pew,id_vars=‘religion’)3:修改列名:原有转换默认

2020-12-01 16:05:26 893 1

原创 (六)缺失数据的处理

目录一:了解NaN:二:缺失值加载:1:加载数据,不包含缺失值:2:缺失值的处理:一:了解NaN:1: NaN啥也不是:注意使用一定要导包:from numpy import NaN,nan,NAN二:缺失值加载:1:加载数据,不包含缺失值:2:缺失值的处理:...

2020-12-01 10:29:39 1384

01-GO语言开发环境的搭建.md

Go

2021-03-25

美多商城后台项目.md

适合DRF练手项目

2021-03-19

DRF框架基础.pdf

DRF框架快速入门的人员

2021-03-14

Django商城项目前台项目

django整个的前台项目的开发流程。

2020-12-30

MySQL的底层原理

mysql的底层原理

2020-12-21

数据科学-Pandas数据分析讲义.pdf

数据分析讲义

2020-11-30

mysql主从服务器的配置.md

mysql读写分离的配置,配置django配置,数据库配置,linux配置

2020-09-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除