自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Python基础(一) - Json文件解析与读写至DataFrame

简介简单讲一下怎么把txt文件中的json格式文件导入到python中,同时转为Data Frame形式的数据框。以方便后续进行数据分析。 环境介绍系统环境:Windows 10Python版本:Python 3.5GUI:Anaconda Spyder必备库:pandas, json 代码及解释如果你的txt中只有一个json对象,那么用以下的语法就可...

2018-09-26 14:03:35 4842 2

原创 4.3.4.集成学习(一) - 袋装法(Bagging),提升法(Boosting),随机森林(Random Forest)

简介集成学习(Ensemble Learning)是通过聚合多个分类器的预测结果来提高分类的准确率。比如,在集成学习中,会生成多个分类树模型,从中选取表现较好的那些树模型,在通过投票等筛选方式决定最终输出的分类器。在聚合算法中,以Bagging,Boosting与Random Forest(随机森林)最为典型。这三个算法,因为能够显著改善决策树的缺陷而被广泛应用。一句话解释版本:Bag...

2018-09-17 15:51:19 8828

原创 4.3.2无监督学习(四) - 序列模式与AprioriAll算法

简介关联分析为了寻找数据各个特征之间的关联影响关系。关联关系并不是因果关系,它表示的是特征A出现与特征B出现之间的影响关系。关联分析通常可以分为关联规则(Association Rules)与序列模式(Sequence Pattern Mining)。其中,序列模式算法中最基本的是AprioriAll算法。一句话解释版本:序列模式就是有时间顺序概念的关联规则。数据分析与挖掘体系...

2018-09-06 10:53:15 1864

原创 4.4.2分类模型评判指标(四) - ROC,AUC,GINI,KS,Lift,Gain,MSE总结

简介分类模型的评判指标光是图就有好多,ROC,AUC,GINI,KS,Lift,Gain,MSE,这些有些是图有些是指标,放在一起乱七八糟搞得人分不清东南西北。所以这里我先整体给大家一个直观的介绍。省的以后再遇上这么多图的时候完全分不清是谁是谁。三句话概括版本:Confusion Matrix -> Lift,Gain,ROC。ROC -> AUC,KS -> G...

2018-09-05 16:45:24 11009 1

原创 4.3.2无监督学习(三) - 关联规则与Apriori算法

简介关联分析为了寻找数据各个特征之间的关联影响关系。关联关系并不是因果关系,它表示的是特征A出现与特征B出现之间的影响关系。关联分析通常可以分为关联规则(Association Rules)与序列模式(Sequence Pattern Mining)。其中,关联规则算法中最出名的是Apriori算法。其应用最广为流传的是“啤酒与尿布”的例子。一句话解释版本:关联分析通过支持度与置信度衡...

2018-09-04 12:50:50 2877

原创 R基础(一)- R版本升级、现有版本查看

R版本升级系统:WINDOWS方式:推荐打开RGui界面进行升级,而不要再RStudio中直接输入命令包:installr代码:# 安装包,如果已经有此包可跳过此步骤install.packages("installr")# 加载包,升级library(installr)updateR() 查看R版本代码:version ...

2018-09-04 12:43:47 58298 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除