数据挖掘(R语言)
文章平均质量分 70
a_achengsong
这个作者很懒,什么都没留下…
展开
-
信用评分模型(R语言)
信用评分2016年1月10日本文详细的介绍了信用评分卡的开发流程,开发语言为R语言,python版本请见:一行代码搞定信用评分模型(python)python版实例和数据请见我的github:https://github.com/chengsong990020186/CreditScoreModel,如觉得实用就点下star,欢迎大家一起学习交流进步。一、数据准备1、 问题的准...原创 2016-04-23 10:45:57 · 93783 阅读 · 89 评论 -
Adative-lasso+灰色预测(R)
最近在看特征的选择,看到lasso对特征选择不错,下面直接上干货数据为广州统计年检2015年数据目标:1)梳理影响地方财政收入的关键特征,分析、识别影响地方财政收入的关键特征的选择模型;2)结合目标1的因素分析,对广州市2015年的财政总收入及各个类别收入进行预测。下面为R语言代码部分head(data)#...原创 2016-08-19 15:03:13 · 8681 阅读 · 9 评论 -
支持向量机SVM算法原理及应用(R)
只要接触到数据挖掘/机器学习,相比都会听过“支持向量机”的大名。在机器学习领域,支持向量机SVM(Support Vector Machine)是一个有监督的学习模型,通常用来进行模式识别、分类、以及回归分析。SVM涉及的知识面非常广,目标函数、优化过程、并行方法、算法收敛性、样本复杂度等。学习SVM可以看《统计学习方法》、Andrew Ng支持向量机等,这里推荐一个博客,讲的非常详细,我就不搬过...原创 2016-08-17 16:37:25 · 51788 阅读 · 4 评论 -
K-means算法原理以及应用(R)
K-means是一种无监督学习算法,是聚类算法中最简单的一种了。不同与一些分类的监督学习算法,比如逻辑回归、SVM、随机森林等,k-means聚类无需给定Y变量,只有特征X。下面是k-means算法原理及思想。在聚类问题中,给我们的训练样本是,每个,没有了y。 K-means算法是将样本聚类成k个簇(cluster),具体算法描述如下: 1、 随机选取k个聚类质心...原创 2016-08-16 23:58:29 · 26574 阅读 · 2 评论 -
简单的文本挖掘-用于QQ聊天记录(R)
平时的交流很多都在QQ上,QQ交流已经离不开日常的生活,这里我用R来分析QQ聊天记录,看看平时都聊了什么。首先介绍下用的文本挖掘的包:Rwordseg 一个 R 环境下的中文分词工具,使用 rJava 调用 Java 分词工具 Ansj。该包需配合rJava包一起使用。详见李舰老师博客:http://jianl.org/Rwordseg包不能直接install.packages(...原创 2016-08-04 19:26:45 · 10435 阅读 · 4 评论 -
logistic回归报错问题:Warning messages: 1: glm.fit:算法没有聚合 2: glm.fit:拟合機率算出来是数值零或一
logistic回归的时候报错问题包括下面两种Warning: glm.fit: algorithm did not convergeWarning: glm.fit: fitted probabilities numerically 0 or 1 occurredWarning messages:1: glm.fit:算法没有聚合2: glm.fit:拟合機率算出来是数值...原创 2016-07-26 10:40:48 · 63129 阅读 · 5 评论