R入门
文章平均质量分 66
-Shonna-
这个作者很懒,什么都没留下…
展开
-
分类:线性回归
1原创 2016-04-21 14:59:11 · 394 阅读 · 0 评论 -
分类:最近邻knn
最近邻分类是一种很符合直觉的思维方式,它是将未知的对象与已知的相比较,如果各个属性相近,我们就把他们归为一个类别。kth Nearest Neigbour将数据看作在多元空间的点,‘1)先计算未知点和周围k个已知点之间的距离2)然后根据周围k个已知点的类别进行投票来决定未知点的类别如:k=3,对某个未知点找出其周围最近的三个已知点,如果这三个点中有两个属于A类,一个属于原创 2016-06-03 11:40:56 · 378 阅读 · 0 评论 -
R语言中的哪些命令或者包让你相见恨晚
我从开始学R到现在一直都在发现“相见恨晚”的R包。分析与建模:Matrix包:先进的稀疏矩阵处理,不了解稀疏矩阵概念的时候内存占用和运行速度都不忍直视。Reshape2/ddply:数据处理不用愁。*apply系列:比for更好用的函数,其中tapply远不如lapply流行,但是实用程度不在其下。实际上lapply有没有变快得看各人的实现,因为虽然lapply调用转载 2016-06-03 17:13:02 · 2894 阅读 · 0 评论 -
常用R包内容梳理
1原创 2016-06-03 17:10:32 · 687 阅读 · 0 评论 -
分类的R语言实现
分类----------------------决策树、贝叶斯、knn、神经网络、集成学习、随机森林原创 2016-06-03 11:01:02 · 4598 阅读 · 0 评论 -
分类:神经网络
1原创 2016-04-21 15:00:44 · 394 阅读 · 0 评论 -
用R进行文本挖掘与分析:分词、画词云【2】
。转载 2016-03-07 11:02:04 · 1059 阅读 · 0 评论 -
文本挖掘
本文主要介绍文本挖掘的常见方法,主要包括词频分析及wordcloud展现、主题模型、文本分类、分类评价等。分类主要包括无监督分类(系统聚类、KMeans、string kernals),有监督分类(knn、SVM)。一、文本挖掘概念 将数据挖掘的成果用于分析以自然语言描述的文本,这种方法被称为文本挖掘(Text Mining)或文本知识发现(Knowledge转载 2016-06-03 21:52:03 · 2587 阅读 · 0 评论 -
R语言︱SNA-社会关系网络—igraph包(社群划分、画图)(三)
转自:http://blog.csdn.net/sinat_26917383/article/details/51444536目录(?)[-]一社群发现模型基于点连接的社群发现clusters随机游走的社群发现自旋玻璃社群发现中间中心度社群发现传播标签社群发现二衡量社群的指标模块化指标Qmodularity网络聚类系数transi转载 2016-06-12 11:43:17 · 9166 阅读 · 0 评论 -
R语言︱SNA-社会关系网络 R语言实现专题(基础篇)(一)
目录(?)[-]一关系网络数据类型平行关系型文本型二构造关系网络自编译函数initigraph文本型数据三一些基本操作关系网络中的点集V1点集属性2点集加减操作3相邻点的集合neighbors很重要关系网络中的线集E1线集的类型2线集属性3线集加减关系网络的重复性问题1countmultipleg 函数2simplify函数转载 2016-06-12 11:46:15 · 3178 阅读 · 0 评论 -
R数据分析包
分类: BP神经网络:nnet随机森林:randomForestsvm:e1071决策树:tree聚类:系统聚类:hclustK-means聚类:kmeans关联规则:apriori算法:arules时间序列:arima时间序列模型:forest tseries 文本分析:词云:wordcloud切原创 2016-06-03 01:28:23 · 1652 阅读 · 0 评论 -
聚类分析
1原创 2016-04-21 15:04:26 · 4333 阅读 · 0 评论 -
数据预处理
当采样数据维度过大,如何进行降维处理、缺失值处理等都是要解决的问题数据预处理主要包括:数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约等1、数据质量分析常见的脏数据:*缺失值*异常值*不一致的值*重复数据及含有特殊符号(如#,¥,*的数据)解决办法:*缺失值*异常值原创 2016-06-03 02:15:48 · 865 阅读 · 0 评论 -
分类:支持向量机
1原创 2016-04-21 15:01:11 · 342 阅读 · 0 评论 -
分类:贝叶斯
1原创 2016-04-21 15:02:00 · 306 阅读 · 0 评论 -
分类:集成学习
1原创 2016-04-21 15:02:35 · 349 阅读 · 0 评论 -
利用R语言如何判别和分类
楼主在学习数据挖掘期间,老师讲了很多的判别和分类方法,只是没有平时时间整理,这次利用周末的时间特地整理自己以前的知识点,这篇文章会引用大量网上的图片和文字,若有侵权,及时告知,本人会马上修改。这篇文章中的案例统一使用著名的鸢尾花数据。若有错误,也请及时指出,大家相互学习,共同进步 判别分析(discriminant analysis)是一种分类技术。它通过一个已知类别的“训练样本”来建转载 2016-04-21 16:42:12 · 2822 阅读 · 0 评论 -
关联分析
1原创 2016-04-21 15:03:49 · 384 阅读 · 0 评论 -
时间序列分析
时间序列分析是根据系统观测得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法。进行时间序列,用ts()函数将数据转换为时间序列格式,模型拟合可通过arima()函数实现,涉及的主要参数为order(自回归项数、滑动平均项数及使时间序列成为平稳序列的差分阶数)seasonal(序列表现出季节性趋势时需要,period)method(参数估计方法,“C原创 2016-06-03 01:42:42 · 840 阅读 · 0 评论 -
机器学习十大算法
1、C4.5机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。决策树学习也是转载 2016-06-03 01:49:40 · 7797 阅读 · 0 评论 -
分类:决策树
1转载 2016-04-21 15:00:06 · 789 阅读 · 0 评论 -
数据特征分析
1、分布分析2、对比分析3、统计量分析1)集中趋势度量:(均值、中位数) 均值:---------所有数据的平均值。 中位数:-------将一组观察值从小到大按顺序排列,位于中间的那个数据。 众数:----------数据集中出现最频繁的值。2)离中趋势度量:(标准差(方差)、四分原创 2016-06-03 02:15:18 · 5497 阅读 · 0 评论 -
R语言︱SNA-社会关系网络—igraph包(中心度、中心势)(二)
目录(?)[-]一中心度点度中心度点出度点入度相对点中心度点度频率接近中心度点出度点入度相对接近中心度中间中心度点的中心度以及线的中心度1点的中心度betweenness2线的中间中心度edgebetweenness点的特征向量中心度evcent二中心势网络聚类系数transitivity网络密度graphdensity转载 2016-06-12 11:48:16 · 6683 阅读 · 0 评论