R数据挖掘篇
文章平均质量分 53
小力丸
数据分析,94年,摩羯座,软妹子
展开
-
R聚类算法-DBSCAN算法
DBSCAN算法(Density-Based Spatial Clustering of Application with Noise)密度聚类算法 基于密度的聚类算法,K-means和层次聚类对于球状的簇聚类效果很好,DBSCAN可以用于更多复杂形状簇的聚类。R中实现DBSCAN算法的API “fpc”包 install.packages(“fpc”) dbscan(data,eps,M原创 2017-07-25 17:44:00 · 6316 阅读 · 2 评论 -
R中季节性时间序列分析及非季节性时间序列分析
序列分解1、非季节性时间序列分解 移动平均MA(Moving Average)①SAM(Simple Moving Average) 简单移动平均,将时间序列上前n个数值做简单的算术平均。 SMAn=(x1+x2+…xn)/n②WMA(Weighted Moving Average) 加权移动平均。基本思想,提升近期的数据、减弱远期数据对当前预测值的影响,使平滑值更贴近最近的变化趋势。 用原创 2017-07-25 17:45:26 · 18855 阅读 · 0 评论 -
R中时间序列分析-趋势分析Trend
趋势分析(Trend)常用趋势的数学函数 线性函数 y=ax+b 指数函数 y=a^x 二次函数 y=ax^2+bx+c曲线拟合方法 nls可以拟合任意表达式的曲线nls(formula,start,data)formula 曲线表达式start 参数的初始点,可以随便设置一个 设置这个参数的目的:(减少递归的次数,加快运算的速度)data 需要拟合的数据data <-原创 2017-07-25 17:45:09 · 16676 阅读 · 1 评论 -
R关联规则算法(支持度、自信度、提升度)
关联规则(Association Rules) 两个不相交的非空集合X、Y,如果有X->Y,就说X->Y是一条关联规则。关联规则的强度用支持度(support)和自信度(confidence)来描述,关联规则是否可用,使用提升度(Lift)来描述。 挖掘定义 给定一个数据集,找出其中所有支持度support>=min_support,自信度confidence>=min_confifence的原创 2017-07-25 17:44:34 · 13502 阅读 · 0 评论 -
R聚类算法-层次聚类算法
层次聚类(Hierarchical Clustering算法) 层次聚类算法又称为树聚类算法,它根据数据之间的距离,透过一种层次架构方式,反复将数据进行聚合,创建一个层次以分解给定的数据集。 常用于一维数据的自动分组层次聚类方法 hclust(dist)dist 样本的距离矩阵距离矩阵的计算方式 dist(data)data 样本数据层次聚类的代码实现:pColumns <- c('原创 2017-07-24 16:00:48 · 2544 阅读 · 0 评论 -
R聚类算法-(K-Means算法)
聚类算法,属于无监督学习,使用迭代 K-Means算法 K-Means算法的目标,是把n个样本点划分到k个类中,使得每个点都属于离它最近的质心对应的类,以之作为聚类的标准。 质心: 指一个类,内部所有样本点的均值。 kmeans(x,centers)x 待聚类的训练样本centers 聚类的个数,也就是要分成多少类代码实现:pColumns <- c('Sepal.Lengt原创 2017-07-24 15:48:18 · 1528 阅读 · 0 评论 -
R分类算法-神经网络算法
神经网络(Artifical Neural Network) 神经网络(人工神经网络),是一种模仿生物网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型。 现代神经网络,是一种非线性的数据建模工具,常用来对输入和输出间复杂的关系进行建模。用来探索数据的未知模式。神经网络用到的包”nnet” nnet(formula,data,size,decay,maxit,linout,原创 2017-07-24 15:16:37 · 4391 阅读 · 1 评论 -
R分类算法-Logistic回归算法
逻辑回归 Logistic Regression 所谓LR,就是一个被Logistic方程归一化后的线性回归,可以将非线性的问题转化为线性问题。 优点: 算法易于实现和部署,执行效率和准确度高 缺点: 离散型的数据需要通过生产虚拟变量的方式来使用。 R API glm(formula,data)formula 建模表达式data 训练数据★glm会自动帮我们把变原创 2017-07-24 14:53:32 · 1246 阅读 · 0 评论 -
R分类算法-决策树算法
决策树(Decision Tree) 它通过对训练样本的学习,并建立分类规则,然后依据分类规则,对新样本数据进行分类预测,属于有监督学习。 优点: 决策树有易于理解和实现; 决策树可处理数值型和非数值型数据;决策树在party包里 install.packages(“party”) ctree(formula,data)formula 建模表达式data 训练数据原创 2017-07-24 14:00:28 · 873 阅读 · 0 评论 -
R文本挖掘-文章关键词提取
关键词提取(keywords)词频(Term Frequency)逆文档频率(Inverse Document Frequency) IDF就是每个词的权重,它的大小与一个词的常见程度成反比。TF-IDF(Term Frequency-Inverse Document Frequency) 权衡某个分词是否关键词的指标,该值越大,是关键词的可能性就越大。如何理解呢,举个例子: 有原创 2017-07-24 12:18:20 · 7410 阅读 · 2 评论 -
R文本挖掘-中文分词Rwordseg
我们的数据分析工作,不仅仅有对数据的分析,还有对文字资料整合的统计分析。在进行词频统计之前,有一项必须要做的工作就是中文的分词。 1.语料库的处理 语料库 语料库是我们要分析的所有文档的集合 中文分词 将一个汉字序列切分成一个一个单独的词 停用词 数据处理的时候,自动过滤掉某些字或词,包括泛滥的词,例如web, 网站等,又如语气助词、副词、介词、连接词等,例如的,地,得。R 中的原创 2017-07-24 12:00:02 · 1586 阅读 · 0 评论 -
R分类算法-KNN算法
分类 监督学习(Supervised Learning): 从给定标注的训练集中学习出一个函数,根据这个函数为新数据进行标注。 无监督学习(Unsupervised Learning): 从给定无标注的训练集中学习出一个函数,根据这个函数为所有数据标注。 分类(Classification): 分类算法通过对已知类别训练数据集的分析,从中发现分类规则,以此预测 新数据的类别,分类算法属原创 2017-07-24 13:42:16 · 1511 阅读 · 0 评论 -
R中如何利用余弦算法实现相似文章的推荐
推荐(Recommended) 介绍好的人或事物,希望被任用或接受。在目前的数据挖掘领域, 推荐包括相似推荐以及协同过滤推荐。 相似推荐(Similar Recommended) 当用户表现出对某人或者某物感兴趣时,为它推荐与之相类似的人,或者物, 它的核心定理是:人以群分,物以类聚。 协同过滤推荐(Collaborative Filtering Recommendation) 利用已原创 2017-07-24 13:02:55 · 1745 阅读 · 0 评论 -
R中如何利用余弦算法实现文章的自动摘要
自动摘要 自动摘要,就是利用计算机自动地从原始文献中提取摘要。 例如百度经验中的经验摘要,简短的描述了该经验的主要解决问题。 自动摘要的算法原理 余弦相似度(Cosine Similarity)算法步骤:获取到需要摘要的文章对该文章进行词频统计对该文章进行分句 根据中文的标点符号,一般我们采用。,?进行分句计算分句与文章之间的余弦相似度代码实现:library(tm)librar原创 2017-07-24 13:19:32 · 640 阅读 · 0 评论 -
R中协同过滤算法
协同过滤(Collaborative Filtering,简称CF)协同过滤常常被用于分辨某位特定顾客可能感兴趣的东西,这些结论来自于其他相似顾客对哪些产品感兴趣的分析。数据结构 协同过滤,主要收集每个用户对使用过的物品的评价。 评价可以理解为经常在电商网站上出现的,五星级的评分。 注意:不同用户的评分标准不同,所以需要对评分进行标准化处理。 标准化为0-1之间的值。①用户评分向量 ②商品原创 2017-07-25 17:44:51 · 2370 阅读 · 0 评论 -
R中时间序列分析-趋势预测ARIMA
时间序列预测(time series forecasting)ARIMA模型(Autoregressive Integrated Moving Average Model) ARIMA模型,将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。install.packages(“forecast”) 拟合曲线的方法 auto.原创 2017-07-25 17:46:20 · 7873 阅读 · 0 评论