自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (3)
  • 收藏
  • 关注

原创 相关性分析与余弦距离

1.pearson相关系数两个连续变量间呈线性相关时(两变量需服从正态分布),使用pearson积差相关系数,不满足积差相关分析适用条件时,使用spearman秩相关系数描述2.spearman秩相关系数spearman相关系数又称秩相关系数,是利用两变量秩次大小作线性相关分析(依据两列成对等级等级数之差来计算,所以又称等级差数法),对原始变量分布不作要求属非参数统计方法,适用范围...

2019-03-26 20:36:48 2025

原创 Python中深拷贝与浅拷贝详解

所有Python对象都有三个属性:身份、类型、值name='a'id(name) #id-身份唯一标识type(name) #对象类型1.可变对象列表、字典、集合,指可变对象的值可变,身份不变2.不可变对象数字、字符串、元组对象身份和值都不可变。新创建对象被关联到原来变量名,旧对象被丢弃,垃圾回收器会在适当时机回收这些对象3.引用Python程序中每个对象都会在...

2019-03-31 22:12:48 192

原创 哑变量与鲁棒性的理解

若名义变量是有序的,则哑变量编码替代方法是给类别编号并应用min-max标准化。使用该方法注意点:只有确信类别间步长相等时,才能应用。如果有证据证明类别间步长不相等,那么哑变量编码是一种更保险方法鲁棒性即算法稳定性,即被测数据出现“震动”(受到干扰)时,算法得到结论是否相对稳定。具体在评价边缘检测算法稳定性时,可以对边缘图像加噪声,也可对边缘图像做模糊处理(锐化处理的反处理),还可降低图像辉度...

2019-03-17 22:36:39 313

原创 随机森林模型详解

1.定义决策树+bagging=随机森林,随机森林是一种比较新的机器学习模型(非线性基于树的模型)集成学习方法。上世纪八十年代Breiman等人发明分类树算法,通过反复二分数据进行分类或回归,计算量大大降低,2001年Breiman把分类树组合成随机森林,即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树结果。随机森林在运算量没有显著提高前提下提高了预测精度,随机...

2019-03-17 21:43:57 88496 8

原创 k折交叉验证概述-附R语言实现

因需要拿出部分数据作为测试,故总有部分数据不能用于构建模型,一种更好选择是交叉验证(简称CV)。k折交叉验证是交叉验证方法中的一种(是进行模型比较的有效方法),将整体数据集分为k份(每份近似相等),其中k-1份作为训练数据,另外一份作为验证数据集,并计算预测误差平方和。用验证集来验证所得分类器或模型的错误率,循环以上实验k次,直到所有k份数据都被选择一遍为止。选择小一点的k容易高方差,大一点的k容...

2019-03-02 23:09:55 7949 2

原创 RFM模型浅析

RFM模型在客户管理中常被用来衡量客户价值和客户创新能力,主要考量三个指标:最近一次消费-Recency、消费频率-Frequency、消费金额-Monetary。根据以上三个维度对客户做细分,假定每个维度划分五个等级,得到客户R值(1-5),F值(1-5),M值(1-5)。那么客户就被分作125个细分群,就可根据客户交易行为差异针对不同群体做不同推荐。或进一步针对不同业务场景,对R、F、M赋予不...

2019-03-02 15:37:07 2811

JS混淆解密并美化过的getkey

配合我的博客文章使用【Python与R协同完成【中国裁判文书网】文书内容爬取】

2018-07-14

getkey JS文件

配合我的博客文章使用【Python与R协同完成【中国裁判文书网】文书内容爬取】

2018-07-14

base64 JS文件

配合我的博客文章使用【Python与R协同完成【中国裁判文书网】文书内容爬取】

2018-07-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除