自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

自我成长-博客

将成长的点滴记录

  • 博客(10)
  • 收藏
  • 关注

原创 Mac安装ffmpeg报错

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar

2021-11-15 17:16:31 3333

原创 自然语言处理-TF-IDF

TF-IDF原理解释:TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。使用场景:用于关键词提取代码实现import jieba.analyse as ana...

2020-03-01 23:29:37 353

原创 自然语言处理-词云生成

为什么需要生成词云对于文本数据有个直观的了解,为后续的工作提供一定的数据可视化分析依据。词云的生成步骤:导入工具库读取数据清洗数据统计词频保留前K个词作为词云生成库绘制词云图导入工具库import warningswarnings.filterwarnings('ignore')import jiebaimport numpyimport pandas as pdi...

2020-03-01 23:03:45 1192

原创 python读取文件方式

数据文件:在我们日常处理的文件中有很多类型的文件存储数据,如txt,csv,excel,sas数据集,PSS数据集,链接数据库MySQL,链接数据库sql server等等。1.读取txt文本import pandas as pddata_txt = pd.read_csv(‘C:/Users/xxx/Desktop/文本.txt’,sep = ‘\t’,encoding = ‘utf-8...

2019-09-08 11:29:27 1229 2

原创 python读取数据出现UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid contin

报错的含义是:unicodedecodeerror:“utf-8”编解码器无法解码位置0中的字节0xce:inva字符编码问题1.ASCLL与GB2312**国标码是汉字的国家标准编码,目前主要有GB2312、GBK、GB18030三种。GB2312编码方案于1980年发布,收录汉字6763个,采用双字节编码。GBK编码方案于1995年发布,收录汉字21003个,采用双字节编码。GB...

2019-09-08 10:52:01 15398

原创 DataFrame数据索引转换成列或列转换成数据索引

DataFrame数据集索引转换和重命名DataFrame数据结构类型我们常见的excel表格一样,直观简单利于理解。该数据集有行和列及索引的概念。我们在数据操作中常常需要进行的对数据集进行分组统计之类。这时就很涉及到数据集改变之后数据索引也可能随之改变。1.查看数据索引列col_name = bin_df.index.nameprint(‘col_name:’,col_name...

2019-09-07 17:56:44 23340

原创 逻辑回归-评分卡模型

【逻辑回归】在建立评分模型时,我们通过使用逻辑回归进行建立模型对数据进行训练,模型给出一个分类好坏客户的一个概率值;并不是评分卡的分值。【评分卡定义】评分卡中好坏客户的定义,假设通过历史数据定义,近1年逾期次数为大于等于M2词作为违约客户,则将好坏客户通过数学公式表示。假设P为坏客户的概率,则1-P则为好客户概率。【逻辑回归–公式】坏客户概率计算公式好客户概率计算公式好...

2019-08-24 11:11:55 2469

原创 风控模型中PSI指标

PSI指标PSI定义:群体稳定性指标PSI(Population Stability Index)是衡量模型的预测值与实际值偏差大小的指标;稳定度指标可衡量测试样本及模型开发样本评分的分布差异,为最常见的模型稳定度评估指标。其实PSI表示的就是按分数分档后,针对不同样本,或者不同时间的样本,population分布是否有变化,就是看各个分数区间内人数占总人数的占比是否有显著变化PSI公式:...

2019-08-23 15:34:41 7917

原创 风控模型中的KS-指标

KS-指标ks定义ks是指通过衡量好坏样本累计分布之间的差值,来评估模型的风险区分能力。KS曲线又叫洛伦兹曲线。以TPR和FPR分别作为纵轴,以阈值作为横轴,画出两条曲线。KS曲线则是两条曲线的在每一个阈值下的差值真阳性率(TPR) : 判定为正例也是真正例的比率伪阳性率(FPR) :判定为正例却不是真正例的比率注:ks取的是TPR和FPR差值的最大值KS(Kolmogor...

2019-08-23 13:53:51 10079

原创 LeetCode-数组-两数之和

题目:给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,你不能重复利用这个数组中同样的元素。示例:: 给定 nums = [2, 7, 11, 15], target = 9: 因为 nums[0] + nums[1] = 2 + 7 = 9: 所以返回 [0...

2019-08-08 22:00:07 84

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除