- 博客(16)
- 收藏
- 关注
原创 数据仓库
1. 什么是数据仓库?数据仓库(Data Warehouse),可简写为DW或DWH,数据仓库,是为了企业所有级别的决策制定计划过程,提供所有类型数据类型的战略集合。它出于分析性报告和决策支持的目的而创建。为需要业务智能的企业 ,为需要指导业务流程改进、监视时间,成本,质量以及控制等。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何数据,数据来源于外部,并且开放给外部应用,...
2019-08-11 16:11:23
374
原创 数据质量检测方面
在我们进行数据分析之前要对数据进行检测,数据质量是保证数据应用的基础,它的评估标准主要包括四个方面:完整性、一致性、准确性、及时性。评估数据是否达到预期设定的质量要求,就可以通过这四个方面来进行判断。(1)完整性:指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。不完整数据的价值就会大大降低,也是数据质量最为基础的一项评估标准。数据质...
2019-08-11 15:13:52
1044
原创 小微企业信用评级方法
本文采用层次分析法,并结合专家打分法确定小微企业信用评级体系中各指标的权重。(1)层次分析法是定性分析和定量计算相结合的一种方法,能将影响目标决策的复杂因素变得简明,有迹可循。首先,层次分析法将一个目标决策中各主要影响因素划分为不同模块,形成一个有序的层层递进的层次结构;然后,通过比较不同因素之间的相对重要程度来计算每个因素对上一层目标的重要程度:最终,得到每个因素对决策目标的影响程度。在确定...
2019-08-04 16:44:02
6193
原创 IBM SPSS Modeler案例:信用风险评分方法
在现代社会中,信用对个人和企业都是无比重要的品质。无论是办理信用卡业务,开通国际长途业务,还是获取大额融资额度,都跟你的信用级别挂钩。那么应该如何评价个人或者企业的信用情况?也许可以使用决策树或者神经网络等算法 ,但实际上,数据分析员可以理解与接受,但是广大业务人员却不甚了解。现在银行业比较通用的方法是使用信用评分的形式。 信用评分是使用统计模型的方法对潜在客户和...
2019-08-04 01:09:35
9370
3
原创 变量分箱:有监督分箱法和无监督分箱法
评分卡建模在金融行业应用得比较广泛,比如对客户的信贷诚信度进行评分。在建模过程中,对连续变量的分箱是一个必不可少的过程。1. 分箱的用处离散特征的增加和减少都很容易,易于模型的快速迭代; 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展; 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造...
2019-08-03 17:47:25
5677
原创 jupyter使用argparse包
遇到的问题:import argparseparser = argparse.ArgumentParser(description='Evaluate PERCH clustering.')parser.add_argument('--input', '-i', type=str, help='Path to the dataset.')parser.add_argument('--o...
2019-05-10 10:07:53
2380
1
原创 Sublime text 3搭建Python开发环境及常用插件安装
一、环境准备官方网站地址:http://www.sublimetext.com/3二、安装Sublime Text 31、双击下载的.exe文件安装,安装路径不要有中文目录2、安装Sublime Text 3时,勾选“Add to explorer context menu”,可以在文件右键菜单添加“Open with Sublime Text”,方便使用Sublime Text...
2019-04-08 11:02:22
1964
原创 在windows10下安装minepy
在学习最大信息系数MIC时,发现from minepy import MINE代码运行出错 Module Not Found Error: No module named 'minepy' 缺少minepy模块,于是到Anaconda(或者cmd)下执行命令 :pip install minepy,出现以下情况:发现又缺少编译器——Visual C++ Build Tool...
2019-01-08 12:51:12
2840
1
原创 通用机器学习Scikit-Learn(一)
1.什么是机器学习? 机器学习有下面几种定义: “机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。” “机器学习是对能通过经验自动改进的计算机算法的研究。” “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的英文定义是:A computer program is said t...
2018-09-26 11:44:56
416
转载 机器学习顶级会议及论文
(1)博客期刊:最好的是JMLR; MLJ和PAMI次之; TNN、neural computation、PR再次一些; PRL、neural computing等等基本纯水。 会议:最好的是NIPS、ICML、COLT; UAI、AISTATS、KDD、CVPR次之; ECML、IJCAI、AAAI、ICDM更次一些摘抄至:https://blog.csdn.net...
2018-09-17 16:49:45
13285
3
原创 Maplotlib 中文乱码
每次编写代码时进行参数设置#coding:utf-8import matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False #用来正常显示负号#有中文出现的情况,需要u'内...
2018-07-12 13:15:58
303
原创 Anaconda中ipython-notebook可以引用.py文件
Anaconda中ipython-notebook可以引用.py文件在引用过程中分为两种情况:①需要引用的文件与编辑的文件在同一目录下:将需要引用的XXX.py文件放在编辑文件的相同目录下,引用时import XXX即可。 假设Main文件夹中有两个文件。Main---- data_process.ipynb---- areacode.py在...
2018-06-09 21:37:25
1149
原创 python读取excel数据,遇到路径问题解决方案
python 读取excel文件 def readexcel(file,sheet_index=0): #parameters:file:文件路径 #sheet_index: 读取的工作表索引 #return:二维数组 workbook = xlrd.open_workbook(file) # all_sheets_list = workbook.sheet
2018-01-07 15:01:41
18970
原创 Jupyter中显示matplotlib的图片
在用matplotlib画图的时候会产生图片不显示在页面中,而是一个对应的内存地址解决办法:就是画图前先运行 %matplotlib inline 命令。
2017-12-28 17:49:45
4396
原创 conda不是内部或者外部命令
我的电脑-属性-高级系统设置-高级-环境变量-系统变量-Path-编辑添加Anaconda的安装地址(最后加上\Scripts),如C:\ProgramData\Anaconda3\Scripts
2017-12-27 16:12:03
9301
原创 修改Anaconda中的Jupyter Notebook默认工作路径
好记性不如烂笔头,实践证明我的记忆力严重不靠谱,犹豫了老半天才开通这个博客,把一些相关操作记录下来,以备不时之需。 ①安装的路径配置:控制面板\系统和安全\系统\高级系统设置\环境变量 1. scripts文件路径:C:\ProgramData\Anaconda3\Scripts 2. python.exe文件路径:C:\Progra...
2017-12-22 20:04:25
2830
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人