logistic回归实现是否看过给部电影
summary(video)
通过逻辑回归判断看这部电影的概率
fit<-glm(video~gender+age+education+occupation,data=video,family=binomial())
summary(fit)
去掉不显著变量
在建立一次逻辑回归
使用预测数据进行预测
testdatapre<-predict(fit,newdata=testdata,type="response")
使用随机森林实现多分类即找到具有哪些特征的群体看哪类电影
install.packages("randomForest")
install.packages("foreign")
library(random)
library(foreign)
train<-read.csv("D:\\vedio.csv");
ind<-sample(2,nrow(training),repalce=TRUE,prob=c(0.7,0.3));
traindata<-training[ind==1,];
testdata<-training[ind==2,];
rf<-randomForest(y~,data=training,ntree=100,proxinity=TRUE);
table(predict(rf),training$y);
summary(rf);
plot(rf);
importance(rf);
rf.predict<-predict(rf,data=test);
对视频的标题,评论进行分词,绘制词云。
聚类
kc<-kmeans(train,5);
plot(train[c("user","item")],col=kc$cluster,pch=as.interger(train$rating);