关闭

R:特征选择算法

library(Boruta) traindata=read.csv("train.csv",header = T,stringsAsFactors = F) #gsub功能被用来将一种表达式用另一种方式代替 str(traindata) names(traindata)=gsub("_","",names(traindata)) #检查一下数据集是否有缺失值 summary(traindata)...
阅读(1848) 评论(0)

sparkSQL:dataframe

DataFrame 的函数 Action 操作 1、 collect() ,返回值是一个数组,返回dataframe集合所有的行 2、 collectAsList() 返回值是一个java类型的数组,返回dataframe集合所有的行 3、 count() 返回一个number类型的,返回dataframe集合的行数 4、 describe(cols: String*) 返回一个通过数学计算的类表值...
阅读(2018) 评论(0)

R中的集中算法集成

dataset = read.table("http://archive.ics.uci.edu/ml/machine-learning-databases/credit-screening/crx.data", sep = ",",header = F, na.strings = "?") head(dataset) sapply(dataset, function(x) sum(is.na(x)...
阅读(1166) 评论(0)

data.table

''' data.table(DT)的操作语句类似于SQL,DT[i, j, by]中的i, j, by 对应着SQL语句的 i=where, j=select, by=group by。所以DT中的i, j并不是只是像data.frame只代表着行列,它更加的灵活多变。 符号 ” := “快速的增加或者删除列,类似SQL的update。 setkey(DT, colA, colB),可以使得检索和...
阅读(330) 评论(0)

文本挖掘

jieba是一个优秀的中文分词模块,使用python编写,并在Github上开源。 使用jieba分词可以将一整串的中文句式切分为独立的语言元素。scikit-learn也是由python编写的机器学习算法库,其实现了许多有用的算法,对于文本分类来说,使用sklearn分类模型所需要的向量形式。使用sklearn 的 naive_bayes 算法库 可以快速构建一个朴素贝叶斯模型。对于文本分类这种动...
阅读(701) 评论(1)

mlogit回归分析

library(mlogit)disease <- read.csv(file=’Desktop/MHD并心力衰竭/MHD并心力衰竭/Sheet1-表格 1.csv’) #读取数据csv并赋值给disease这个变量格式化数据 ```{r dataint} disease.full <- mlogit.data(data=disease,choice="心力衰竭",shape= "wide") #把...
阅读(602) 评论(0)

13章广义线性模型

线性模型只适应于一系列连续性和/或类别型变量来预测正态分布的相应变量。 但是,许多情况下,假设因变量为正态分布(甚至连续型变量)并不合理: 1:结果变量可能使类别型。二值变量(比如:是/否,活着/死亡)和多分类变量(差/良好/优秀)都显然不是正态分布 2:结果变量可能是计数型的。(比如,一周交通事故的数目,每日酒水消耗的数量)广义线性模型扩展了线性模型的框架,它包含了非正态因变量的分析本章重点...
阅读(440) 评论(0)

时间序列python

平稳性检测 平稳性的定义:围绕一个常数上下波动且波动范围有限,即有常数均值和常数方差。如果有明显的趋势或者周期性,那它通常不是平稳序列。检测方法有三种: (1)时序图检测 (2)自相关系数和偏相关系数>>>>>>通过spss 截尾:就是在某阶之后,系数都为0 拖尾:就是有一个缓慢衰减的趋势,但是不都为0 2.不平稳的处理方法 差分法:一阶差分指的是原序列值相距一期的两个序列之间的减法运算...
阅读(3240) 评论(0)

hive 配置

什么是Derby安装方式 •Apache Derby是一个完全用java编写的数据库,所以可以跨平台,但需要在JVM中运行 •Derby是一个Open source的产品,基于Apache License 2.0分发 •即将元数据存储在Derby数据库中,也是Hive默认的安装方式 安装Hive •解压Hive •tar zxvf hive-0.8.1.tar /home/test...
阅读(265) 评论(0)

hadoop distcp

很久没有写了,感觉最近比较浮躁,现在实习了要静下心来 好好学点东西。公司在做集群迁移的项目,在项目中遇到 一个问题,怎么把一个集群的数据拷贝到另个集群中Hadoop数据迁移(集群内迁移,集群间迁移),主要通过拷贝数据来完成。对于小量数据,可以使用”hadoop fs -cp”来完成;对于大量数据,可以借助Distcp 来完成。Distcp是Hadoop自带的分布式拷贝工具。它基于MapReduce实...
阅读(413) 评论(0)

kmeans python实现

大致思路就是给定一个矩阵,假设K是2,页就是分成两个部分,那么我们首先确定两个质心,一开始是找矩阵每一列的最大值和最小值,算出range=max-min,然后设质心就是min+range*random。之后在逐渐递归跟进''' @author: hakuri ''' from numpy import * import matplotlib.pyplot as plt def loadDataSet...
阅读(1157) 评论(0)

pca

pca的主要思想是移动坐标轴,找到方差最大的方向上的特征值,什么叫方差最大的方向的特征值呢,就像下图中的曲线B一样,他的覆盖范围最广。基本步骤: 首先计算数据集的协方差矩阵计算协方差矩阵的特征值和特征向量保留最重要的n个特征什么是协方差矩阵? 定义是变量向量减去均值向量,然后乘以变量向量减去均值向量的转置再求均值代码实现 伪代码如下 去除平均值 计算协方差矩阵 计算协方差矩阵的特征值和特...
阅读(312) 评论(0)

R 四种线性回归模型在预测中的差别

library(ggplot) library(ggplot2) library(GGally) library(Matrix) library(foreach) library(glmnet) ##Plot the datset ggpairs(iris, colour='Species', alpha=0.4) ## 70% of the sample size smp_size <- floo...
阅读(986) 评论(0)

Hadoop 命令行运行实例

打包 为了能够在命令行中运行程序,首先需要对他进行编译和打包,下面就分别展示了编译和打包的过程编译代码如下:javac -classpath /usr/local/hadoop/hadoop-1.0.1/hadoop-core-1.0.1.jar -d wordcount_class wordcount.java上述命令会将wordcount.java编译后的所有class 文件到wordco...
阅读(308) 评论(0)

recommenderjob原码分析

将数据保存为文件,上传到hdfs中,执行一下命令:hadoop jar mahout-core-0.9-job.jar org.apache.mahout.cf.taste.hadoop.item.RecommenderJob -input /intro.txt -s SIMILARITY_EUCLIDEAN_DISTANCE -output output1该命令使用欧式距离求相似度,将结果输出到o...
阅读(200) 评论(0)
76条 共6页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:43924次
    • 积分:950
    • 等级:
    • 排名:千里之外
    • 原创:38篇
    • 转载:35篇
    • 译文:3篇
    • 评论:2条
    最新评论