数据挖掘
ITIRONMAN
we can talk:Double_dongli
展开
-
R语言学习一
R语言数据结构: 1、输入和输出: 函数source(“filename”),表示在当前命令行执行一个R脚本文件,不指定路径,则默认为当前路径,否则,指定路径用函数:setwd(“paht”)。 文本输出,sink(“filename”)可以将输出重定向到filename中,如果此路径下文件存在则覆盖,否则就创建,可以指定参数,append=TRUE来对文件末尾进行追加,使用spli原创 2016-12-27 19:07:39 · 697 阅读 · 0 评论 -
数据挖掘工具-weka代码解析之决策树
1、weka来源 WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。2、...原创 2019-08-08 16:42:14 · 5068 阅读 · 0 评论 -
Python正则表达式(含正则表达式速查表)
1、正则表达式的优点正则表达式能够匹配只要你能描述出来的字符串,对于普通的文本中常用的一些关键词,如果想匹配某种模式很适合用而不是通过普通的contains这种是否含有等匹配。2、python正则表达式速查表3、python正则表达式使用方法:首先,导入python的re模块import re# 将正则表达式编译成Pattern对象pattern = re.compile(r'因.+?入院')#...原创 2018-04-25 12:13:25 · 3583 阅读 · 0 评论 -
R语言学习十二
主成分和因子分析 主成分分析(PCA)是一种数据降维技巧,它能将大量的相关变量转化为一组很少的不相关的变量,这些无关的变量称为主成分,例如,可以使用PCA把30个相关的信息转化为5个无关的成分变量,因为30个相关信息里面存在冗余。 探索性因子分析(EFA)是一种用来发现一组变量潜在结构的方法,可以通过寻找一组更小的,潜在的或隐藏的结构来解释已观测到的,显式的变量间的关系。 p原创 2017-01-22 19:33:01 · 397 阅读 · 0 评论 -
R语言学习十一
广义线性模型 以前的线性模型用来分析变量分布,因变量多为正态分布,对于类别型变量和计数型并不合理,针对这些问题,可以考虑广义线性模型,情况如下: glm()函数 R中可以使用glm函数来拟合广义线性模型,函数的基本形式为: glm(formula,family=family(link=function),data=) glm函数的常见参数如下: gl原创 2017-01-17 16:56:08 · 2437 阅读 · 0 评论 -
R语言学习十
重抽样与自主法 置换检验 用coin包来做置换检验,一般用于解决下列问题: 响应值与组的分配独立吗?两个数值变量独立吗?两个类别型变量独立吗? 置换检验的一些函数: 上图中所列的每个函数都如下所示: function_name(formula,data,distribution=) 其中,formula表示的是要检验变量间的关系 data是一个数原创 2017-01-17 14:26:20 · 278 阅读 · 0 评论 -
R语言学习七
回归 回归概念:回归是一个广义的概念,通常指的是用一个或者多个预测变量来预测响应变量(因变量,结果变量)的方法。 回归分析存在多种变体,回归按照类型来划分的话可以分为以下几种类型: OLS回归:OLS回归是通过预测变量的加权来预测量化的因变量,其中权重是通过数据估计而得到的参数。 使用lm()拟合回归模型 在R语言中,拟合线性模型最基本的函数就是lm(),原创 2017-01-12 17:22:51 · 965 阅读 · 0 评论 -
R语言学习九
中级绘图 散点图:散点图一般用来描述两个连续变量间的关系,在R中,创建散点图的基础函数为plot(x,y),其中,x和y是数值型向量,代表着图形中(x,y)点。 abline()函数用来添加最佳拟合的线性直线,而lowess()函数用来添加一条平滑的曲线 R有两个平滑曲线拟合函数,lowess()和loess(),loess()是基于lowess()表达式版本的更新和原创 2017-01-16 20:31:27 · 1611 阅读 · 0 评论 -
R语言学习八
方差 aov()函数 aov()函数的语法为aov(formula,data=dataframe) 例如用y来代表因变量,用字母A,B,C来代表因子,则常用的一些符号表达式如下: 对应的结果如下: 双因素的ANOVA分析: T检验: 函数简介: 相关性: 线性模型,一般使用pwr.f2原创 2017-01-13 16:03:27 · 8308 阅读 · 0 评论 -
R语言学习六
基本统计分析 独立性检验 R语言中提供了多种检验类别型变量独立性的方法,下面主要讲述卡方独立性检验,Fisher精确检验和Cochran-Mantel-Haenszel检验 卡方独立性检验: 可以使用chisq.test()函数对二维表的行变量和列变量进行卡方独立性检验: Fisher精确检验 可以使用fisher.test()函数进行Fisher精确检验,原创 2017-01-09 14:41:26 · 334 阅读 · 0 评论 -
R语言学习五
数据处理 处理函数: 统计函数: 数据的标准化: 函数scale()对矩阵或者数据框的指定列进行均值为1,标准差为1的标准化 字符处理函数:使用字符处理函数可以对文本型的数据进行处理,包括信息的抽取和格式转化 基本图形 简单条形图:原创 2017-01-06 20:13:31 · 282 阅读 · 0 评论 -
R语言学习四
基本数据管理 直接上小示例: 以上是实现数据sumx和meanx整合到原始mydata数据框中的两种实现方式,建议用第二个 还有一个问题,就是重编码,也就是给已有的数据赋予新值,比如有个999岁的人,此处记录是错误的,要将其设置为缺失值,可以使用如下代码: leadershipage[leadershipage[leadershipage==99] <-NA 其中原创 2016-12-29 18:53:20 · 466 阅读 · 0 评论 -
R语言学习三
基本图形 直接上小示例: dose<-c(20,30,40,45,60) drugA<-c(16,20,27,40,60) drugB<-c(15,18,25,31,40) plot(dose,drugA,type=”b”) plot()函数是R语言中对象作图的一个泛型函数,它会根据对象类型的不同而变化 plot(x,y,type=”b”)表示x为横轴,y为纵原创 2016-12-28 18:03:42 · 527 阅读 · 0 评论 -
R语言学习二
数据输入 1、键盘输入: R中的函数edit()会自动调用一个手动输入的文本编辑器。 2、从带分隔符的文本文件导入数据: 使用函数:read.table() 3、导入Excel数据: 4、使用RDBC来访问数据库接口: 5、处理数据对象的一些常用函数: 好了,这是输入的一些基本知识,下次开讲R中最强大的图形原创 2016-12-28 17:42:52 · 951 阅读 · 0 评论 -
数据挖掘工具-weka代码解析之逻辑回归(极大似然估计)
1、公式推导逻辑回归中,最重要的公式推导就是将该问题转化为极大似然估计,然后求解,接着后面几个过程都实现了一些目的性的推导:极大似然估计函数:(1)这种连续相乘的表达式比较难求,可以两边取log,转化为相加的计算:(2)依据定义,极大似然估计求得是最大的参数,习惯上,都是求最小值,所以可以给式子乘以-1,转化为求最小值(称为交叉熵损失函数):2、weka中对应代码及...原创 2019-08-12 18:52:27 · 1139 阅读 · 0 评论