- 博客(32)
- 资源 (7)
- 收藏
- 关注
原创 win7安装github远程提交eclipse项目
win7安装git远程提交eclipse项目1.申请完git账户后,建立好代码库https://github.com new repository2安装插件Help——Install New Sofrwarehttp://archive.eclipse.org/egit/updates-1.3/选择合适版本,查看版本匹配http://wiki.eclipse.org/E
2016-06-30 21:30:39 452
原创 MapReduce之按照ID取模分区输出到不同文件下
很多时候需要对大文件进行分区最简单的是ID的hash分区利用MapReduce的分区把文件分割成到不同的文件中去方便后续的计算,例如KNN可以吧预测切分成多个小片分别读入预测package com.mr.partition;import java.io.IOException;import java.util.ArrayList;import java.util
2016-06-29 10:55:56 1432
原创 k近邻KNN之MapReduce实现
* 把预测的数据读入内存然后进行迭代计算 * 适用于预测数据很少训练数据很多 * 如果预测数据很多可以切分多分分别计算 * @author lenovo * 1,计算欧式距离(可根据实际情况修改距离公式) * 2,找出最近 * 输出topk使用TreeSet自己写TopKeyWritable排序package com.ml.mapreduce;impor
2016-06-29 09:51:14 4708 2
原创 朴素贝叶斯之MapReduce版
1,统计词出现的次数1/计算类别的先验概率 *输入格式:类别+文档id+文档词(切分成A,b,c) *输出格式:类别+文档出现次数+文档出现的词的总数2/计算每个词的条件概率 *输入格式:类别+文档id+文档词(切分成A,b,c) *输出格式:类别+词+词的总数3/假设二分类问题-计算概率值 * 1类别+文档出现次数+文档出现的词的总数 * 2类别+
2016-06-28 21:08:09 11515
原创 机器学习与R之朴素贝叶斯分类器
朴素贝叶斯1联合概率分布p(x,y)=p(y)P(x|y) 或者p(A交B)=p(A)xp(B) p(A交B)不容易求,假设条件独立拆分成两个事件的乘积2基本假设条件独立性3利用贝叶斯定理 p(y|x)=P(x,y)/p(x)=p(y)P(x|y)/sum(y-i)[p(y)P(x|y)]y=max p(y)P(x|y)贝叶斯决策理论要求计算两个概率p1(x,y),p2
2016-06-28 10:34:18 4042 4
原创 Python机器学习与实战笔记之朴素贝叶斯分类
##1联合概率分布p(x,y)=p(y)P(x|y) 或者p(A交B)=p(A)xp(B) p(A交B)不容易求,假设条件独立拆分成两个事件的乘积2基本假设条件独立性3利用贝叶斯定理 p(y|x)=P(x,y)/p(x)=p(y)P(x|y)/sum(y-i)[p(y)P(x|y)]y=max p(y)P(x|y)贝叶斯决策理论要求计算两个概率p1(x,y),p2(x, y
2016-06-28 09:15:21 2353
原创 机器学习与R之KNN
k近邻法与kd树(与本文基本无关)为了提高k近邻搜索的效率,可以考虑使用特殊的结构存储训练数据,以减少计算距离的次数。具体方法有很多,这里介绍kd树方法参考http://blog.csdn.net/qll125596718/article/details/8426458R语言KNN实现K常用方法 K=训练数据数量的平方根字符变量利用哑变量编码,eg:0/1rm(li
2016-06-25 17:36:16 1506
原创 Python机器学习实战笔记之KNN算法
k-近邻算法测量不同特征值之间的距离方法进行分类优 点 :精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型和标称型。(常用欧氏距离)1收集数据2准备数据3分析数据4训练算法5测试算法6使用算法Python中识别中文文件开头添加#coding:utf-8分类代码#coding:utf-8fro
2016-06-25 11:33:33 1306
原创 阿里音乐流行趋势预测大赛之数加平台OPEN_MR初体验
写在开头:OPEN_MR在数加平台上可用,ODPS_MR我还没跑出结果,先给大家演示一下OPEN_MR的简单使用。首先,建立一个Hadoop项目,可以使用御膳房的文档搭建环境(目的使代码能够编译通过),后面附一份我的御膳房项目(配置maven后可直接导入eclipse使用)。附上示例代码:package hadoop.TianChiMapreduce;import java.i
2016-06-15 19:52:13 4221
原创 R主成分分析与因子分析
主成分分析通过将维把多个变量化成几个主成分的方法基本思想:设法将原先众多具有一定相关性的指标,重新组合为一组新的互相独立的综合指标,并代替原先的指标studentX1=c(148, 139, 160, 149, 159, 142, 153, 150, 151, 139,140, 161, 158, 140, 137, 152, 149, 145, 160, 156,151, 147
2016-06-11 17:17:55 1295
原创 R语言随机森林
R语言随机森林回归树模型(CART)决策树是一种倒立的树结构,它由内部节点、叶子节点和边组成。其中最上面的一个节点叫根节点。 构造一棵决策树需要一个训练集,一些例子组成,每个例子用一些属性(或特征)和一个类别标记来描述。构造决策树的目的是找出属性和类别间的关系,一旦这种关系找出,就能用它来预测将来未知类别的记录的类别。这种具有预测功能的系统叫决策树分类器。其算法的优点在于:1)可以生成可以
2016-06-11 17:16:00 5392
原创 R语言maps绘图
安装maps包install.packages("maps")加载某个安装的R包:library("maps")map("state", interior = FALSE)map("state", boundary = FALSE, col="red", add = TRUE)map('world', fill = TRUE,col=heat.colors(10))实验
2016-06-11 17:14:43 5130
原创 R语言JSON转换
library("RJSONIO")解析JSONfromJSON()生成JSon数据框生成name=c(1:5)value=c(6:10)da=data.frame(name,value)dacat(toJSON(da)){ "name": [ 1, 2, 3, 4, 5 ],"value": [ 6, 7, 8, 9, 10 ] }键值对J
2016-06-11 17:13:42 7007
原创 R学习常用
rm(list=ls())#清空floor(1.6)[1] 1> ceiling(1.6)[1] 2取整,四舍五入生成时间序列d=seq(as.Date("2000/1/1"),as.Date("2000/1/5"), by="day") #按日生产从XXXX.XX.XX到XXXX.XX.XX时间d[-c(1,2,3)] 去掉向量第几个数据which(d ==
2016-06-11 17:12:44 649
原创 R参考卡片二
清除单个变量使用 rm() 函数,清除内存中所有的变量:rm(list=ls())合并字符串datadata分割字符串unlist(strsplit(,split=))函数创建向量和矩阵 =与c(), length(), mode(), rbind()#行, cbind()求平均值,和,连乘,最值,方差,标准差 帮助help(函数名) help(mat
2016-06-10 21:10:32 1014
原创 R网格MIC与频繁项集
频繁项集用 R 进行购物篮分析安装arules包并加载内置Groceries数据集library(arules) #加载arules程序包,如果没有install.packages("arules")data(Groceries) #调用数据文件inspect(Groceries) #观看数据集里的数据求频繁项集Eclat算法frequentsets=eclat(G
2016-06-10 21:07:30 588
原创 R随机生成数据并打乱排序
R随机生成数据并打乱排序 runif(100,0,2)----生成100个0-2的数--均匀分布sample(seq(0,2,by=0.00001),100,replace=TRUE) ----生成差为0.00001的0-2的数列,从中随机取样100个并且允许重复正态分布rnorm(n,mean=,sd=)二项分布rbinom(m,n,p)打乱顺序-用抽样sam
2016-06-10 21:06:50 14820
原创 R时间序列分析包综合
passenger = read.csv('passenger.csv',header=F,sep=' ')plibrary("forecast")#把数据变成time series。 frequency=12表示以月份为单位的time series. start 表示时间开始点,可以用c(a,b,...)表示, 例如按月为单位,标准的做法是 start=c(2011,1) 表示从
2016-06-10 21:06:22 1869
原创 R时间序列分析
R时间序列分析 为什么定阶数,如何定,如何判断R时间序列分析工具xts包 xts(x=NUll,order.by=index(x),…) coredata() xts数据子集OHLC数据格式quantmod包TTR包自回归模型(AR) 跟以前时刻有关和当前随机游动有关AR(p)的性质平稳性要求:AR(2)特征根的模都小于1AR(p)的定阶 赤池
2016-06-10 21:05:17 7247
原创 R可视化绘图三-recharts
recharts安装 win7 成功library(RCurl)library(httr)library(htmltools)安装Rtoolsinstall.packages('devtools')library(devtools)install_github('yihui/recharts')ubuntu下安装R包出错 最后成功ERROR: con
2016-06-04 10:10:20 10261 14
原创 R可视化绘图二-ggplot2
散点图ggplot(msleep, aes(sleep_rem / sleep_total,awake)) +geom_point() #等于 qplot(sleep_rem / sleep_total, awake, data =msleep)ggplot(msleep, aes(sleep_rem / sleep_total,awake)) +geom_point() +geom_s
2016-06-04 10:06:48 4304
原创 R可视化绘图一ggplot2之qplot
ggplot2的基本概念• 数据(Data)和映射(Mapping)• 标度(Scale)• 几何对象(Geometric)• 统计变换(Statistics)• 坐标系统(Coordinate)• 图层(Layer)• 分面(Facet)散点图library("ggplot2")qplot(carat, price, data = diamonds
2016-06-04 10:04:18 2379
原创 R聚类
聚类关键度量指标:距离距离的定义常用距离(薛毅书P469)绝对值距离 manhattan欧氏距离Euclide euclidean闵可夫斯基距离切比雪夫距离Chebyshev maximum马氏距离Lance和Williams距离 Lance canberra Williams minkowski离散变量的距离计算dist( )函数
2016-06-04 10:02:14 1511
原创 R假设检验与一元线性回归分析
假设检验 相关系数 cor(x,y) cor.test(x,y) 相关系数越接近1,x与y越相关> data("iris")> plot(iris)> i1=iris[which(iris$Species=="setosa"),1:2]> plot(i1)> cor(i1[1],i1[2])> cor.test(i1$Sepal.Length,i1$Sepal.Wi
2016-06-03 09:51:04 4242
原创 R基于案例学习时间序列
基于案例学习时间序列时间序列的组成成分系统性部分– 水平– 趋势– 季节性非系统性部分– 噪声/随机扰动时间序列的组成成分加法模型– Y = 水平 + 趋势 + 季节性 + 噪声乘法模型– Y = 水平 × 趋势 × 季节性 × 噪声时间序列的可视化基本方法——时序图 以时间为横坐标,以时间序列相应的取值为纵坐标局部放大时序图改变时
2016-06-03 09:49:50 1399
原创 R回归诊断广义线性模型非线性模型
回归诊断样本是否符合正态分布假设?是否存在离群值导致模型产生较大误差?线性模型是否合理?误差是否满足独立性、等方差、正态分布等假设条件?是否存在多重共线性?正态分布检验正态性检验:函数shapiro.test()P>0.05,正态性分布 0.05的p值通常被认为是可接受错误的边界水平(p-value) 方差分析,F检验不显著,Pr>0.05p值为结果可信
2016-06-03 09:48:26 2695
原创 基于R语言的模型组合
组合预测模型---基于R语言的模型组合 算术平均法、 最优权数法、 方差倒数法模型中各参数的 t 值均显著 ,且通过 F 检验和拟合忧度检验c=c(1:20)b=c-0.1a=c-0.3方差倒数法e1=sum((c-b)^2)e2=sum((c-a)^2)w1=(1/e1)/(1/e1+1/e2)w2=(1/e2)/(1/e1+1/e2)
2016-06-01 20:44:58 3123 1
原创 天池大数据比赛,菜鸟仓库比赛,御膳房操作
御膳房--操作表名 描述 来源所属包 所属项目操作item_feature 商品粒度相关特征天池 查看包 tianchi_data (tianchi_data) 已授权config 每个商品在全国和分仓区域的补少...天池 查看包 tianchi_data (tianchi_data) 已授权item_store_feature 商品和分仓区域粒度相
2016-06-01 20:40:06 1743
原创 天池大数据比赛-菜鸟仓库比赛-第二赛季记录
统计全国仓库预测的前两周 商品_仓库_个数rm(list=ls())w=read.table("F:/笔记学习/天池比赛/菜鸟需求预测与分仓规划/data2/item_feature2.csv",header = FALSE,sep=",")e=unique(w$V2)x=0for (i in 1:length(e)){w1=w[which(w$V2==e[i]),]t
2016-06-01 20:38:54 2413
原创 天池大数据比赛-菜鸟仓库比赛-第一赛季记录
赛题说明链接R语言 1379640 918539 2021961 1365166 5个 。两个双11.两个双12 一个6.18(年中大促)统计全国仓库预测的前两周 商品_仓库_个数rm(list=ls())w=read.table("F:/笔记学习/天池比赛/菜鸟需求预测与分仓规划/item_feature01.csv",header = FALSE,sep
2016-06-01 20:35:39 2397 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人