R
文章平均质量分 74
黄同学12
R、python
展开
-
R语言做文本挖掘:基于网购评论提炼电热水器的差异化卖点
这是我参加一个数据挖掘竞赛的作品,这是代码部分,论文正文并没有贴出来。水平一般般,很多还可以改进的地方。不过辛辛苦苦做出来的东西,多少还是有些地方可以借鉴的,贴出来大家共同探讨下。原创 2015-06-06 19:20:29 · 2932 阅读 · 2 评论 -
R语言:词云图
这是当时在琢磨文本挖掘时的小技术,贴出来共享一下原创 2015-06-07 09:09:20 · 9307 阅读 · 4 评论 -
R语言:关联规则(apriori)
本文数据是来自datacastle网站上的一道竞赛题,是基于关联规则进行商品推荐之类的题目数据集中还包含了对商品的评分和购买时间两个额外变量,下面这篇文章并没有使用到这一个变量,特别是对商品的评分这个变量,包含了很多有用的信息。所以说,这篇文章还是一个半成品,有空会补上。#读入数据data = read.csv("数据.csv",stringsAsFactors=F原创 2015-06-21 22:17:44 · 7424 阅读 · 0 评论 -
Rcurl小应用,爬取京东评论
利用Rcurl包做的一个小爬虫,爬取了京东上电热水器的评论原创 2015-06-06 16:42:26 · 4281 阅读 · 3 评论 -
R语言:初试logitstic
#用数据集iris,鸢尾花的例子来说明data(iris)head(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Species1 5.1 3.5 1.4 0.2 setosa2 4.9 3.0原创 2015-07-31 17:09:17 · 5183 阅读 · 0 评论 -
R语言:k近邻
head(iris)##该数据集都是连续变量的#数据标准化处理normalize = function(x){ (x-min(x))/(max(x)-min(x))}iris_norm = as.data.frame(lapply(as.list(iris[,1:4]),normalize))#构造训练集合测试集set.seed(1234)ind=sample(2,nrow(iris),repla原创 2015-08-01 15:43:00 · 1562 阅读 · 1 评论 -
R语言做时间序列(未完)
我学的时间序列课程,实验课都是在sas做的,一直想用R把大概的思路捋顺一下,所以这篇东西并没有给出很多的程序结果,更多地设计做时间序列的思路原创 2015-06-06 19:28:25 · 13479 阅读 · 3 评论