自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (7)
  • 收藏
  • 关注

原创 博客写的时候很多内容由于图片问题会省略

github地址 https://github.com/lytforgood

2016-06-16 16:41:54 806

原创 win7安装github远程提交eclipse项目

win7安装git远程提交eclipse项目1.申请完git账户后,建立好代码库https://github.com   new repository2安装插件Help——Install New Sofrwarehttp://archive.eclipse.org/egit/updates-1.3/选择合适版本,查看版本匹配http://wiki.eclipse.org/E

2016-06-30 21:30:39 452

原创 MapReduce之按照ID取模分区输出到不同文件下

很多时候需要对大文件进行分区最简单的是ID的hash分区利用MapReduce的分区把文件分割成到不同的文件中去方便后续的计算,例如KNN可以吧预测切分成多个小片分别读入预测package com.mr.partition;import java.io.IOException;import java.util.ArrayList;import java.util

2016-06-29 10:55:56 1432

原创 k近邻KNN之MapReduce实现

* 把预测的数据读入内存然后进行迭代计算 * 适用于预测数据很少训练数据很多 * 如果预测数据很多可以切分多分分别计算 * @author lenovo * 1,计算欧式距离(可根据实际情况修改距离公式) * 2,找出最近 *   输出topk使用TreeSet自己写TopKeyWritable排序package com.ml.mapreduce;impor

2016-06-29 09:51:14 4708 2

原创 朴素贝叶斯之MapReduce版

1,统计词出现的次数1/计算类别的先验概率 *输入格式:类别+文档id+文档词(切分成A,b,c) *输出格式:类别+文档出现次数+文档出现的词的总数2/计算每个词的条件概率 *输入格式:类别+文档id+文档词(切分成A,b,c) *输出格式:类别+词+词的总数3/假设二分类问题-计算概率值  * 1类别+文档出现次数+文档出现的词的总数  * 2类别+

2016-06-28 21:08:09 11515

原创 机器学习与R之朴素贝叶斯分类器

朴素贝叶斯1联合概率分布p(x,y)=p(y)P(x|y)  或者p(A交B)=p(A)xp(B)  p(A交B)不容易求,假设条件独立拆分成两个事件的乘积2基本假设条件独立性3利用贝叶斯定理 p(y|x)=P(x,y)/p(x)=p(y)P(x|y)/sum(y-i)[p(y)P(x|y)]y=max p(y)P(x|y)贝叶斯决策理论要求计算两个概率p1(x,y),p2

2016-06-28 10:34:18 4042 4

原创 Python机器学习与实战笔记之朴素贝叶斯分类

##1联合概率分布p(x,y)=p(y)P(x|y) 或者p(A交B)=p(A)xp(B) p(A交B)不容易求,假设条件独立拆分成两个事件的乘积2基本假设条件独立性3利用贝叶斯定理 p(y|x)=P(x,y)/p(x)=p(y)P(x|y)/sum(y-i)[p(y)P(x|y)]y=max p(y)P(x|y)贝叶斯决策理论要求计算两个概率p1(x,y),p2(x, y

2016-06-28 09:15:21 2353

原创 机器学习与R之KNN

k近邻法与kd树(与本文基本无关)为了提高k近邻搜索的效率,可以考虑使用特殊的结构存储训练数据,以减少计算距离的次数。具体方法有很多,这里介绍kd树方法参考http://blog.csdn.net/qll125596718/article/details/8426458R语言KNN实现K常用方法 K=训练数据数量的平方根字符变量利用哑变量编码,eg:0/1rm(li

2016-06-25 17:36:16 1506

原创 Python机器学习实战笔记之KNN算法

k-近邻算法测量不同特征值之间的距离方法进行分类优 点 :精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型和标称型。(常用欧氏距离)1收集数据2准备数据3分析数据4训练算法5测试算法6使用算法Python中识别中文文件开头添加#coding:utf-8分类代码#coding:utf-8fro

2016-06-25 11:33:33 1306

原创 阿里音乐流行趋势预测大赛之数加平台OPEN_MR初体验

写在开头:OPEN_MR在数加平台上可用,ODPS_MR我还没跑出结果,先给大家演示一下OPEN_MR的简单使用。首先,建立一个Hadoop项目,可以使用御膳房的文档搭建环境(目的使代码能够编译通过),后面附一份我的御膳房项目(配置maven后可直接导入eclipse使用)。附上示例代码:package hadoop.TianChiMapreduce;import java.i

2016-06-15 19:52:13 4221

原创 R主成分分析与因子分析

主成分分析通过将维把多个变量化成几个主成分的方法基本思想:设法将原先众多具有一定相关性的指标,重新组合为一组新的互相独立的综合指标,并代替原先的指标studentX1=c(148, 139, 160, 149, 159, 142, 153, 150, 151, 139,140, 161, 158, 140, 137, 152, 149, 145, 160, 156,151, 147

2016-06-11 17:17:55 1295

原创 R语言随机森林

R语言随机森林回归树模型(CART)决策树是一种倒立的树结构,它由内部节点、叶子节点和边组成。其中最上面的一个节点叫根节点。 构造一棵决策树需要一个训练集,一些例子组成,每个例子用一些属性(或特征)和一个类别标记来描述。构造决策树的目的是找出属性和类别间的关系,一旦这种关系找出,就能用它来预测将来未知类别的记录的类别。这种具有预测功能的系统叫决策树分类器。其算法的优点在于:1)可以生成可以

2016-06-11 17:16:00 5392

原创 R语言maps绘图

安装maps包install.packages("maps")加载某个安装的R包:library("maps")map("state", interior = FALSE)map("state", boundary = FALSE, col="red", add = TRUE)map('world', fill = TRUE,col=heat.colors(10))实验

2016-06-11 17:14:43 5130

原创 R语言JSON转换

library("RJSONIO")解析JSONfromJSON()生成JSon数据框生成name=c(1:5)value=c(6:10)da=data.frame(name,value)dacat(toJSON(da)){ "name": [ 1, 2, 3, 4, 5 ],"value": [ 6, 7, 8, 9, 10 ] }键值对J

2016-06-11 17:13:42 7007

原创 R学习常用

rm(list=ls())#清空floor(1.6)[1] 1> ceiling(1.6)[1] 2取整,四舍五入生成时间序列d=seq(as.Date("2000/1/1"),as.Date("2000/1/5"), by="day") #按日生产从XXXX.XX.XX到XXXX.XX.XX时间d[-c(1,2,3)]  去掉向量第几个数据which(d ==

2016-06-11 17:12:44 649

原创 R参考卡片二

清除单个变量使用 rm() 函数,清除内存中所有的变量:rm(list=ls())合并字符串datadata分割字符串unlist(strsplit(,split=))函数创建向量和矩阵    =与c(), length(), mode(), rbind()#行, cbind()求平均值,和,连乘,最值,方差,标准差  帮助help(函数名)  help(mat

2016-06-10 21:10:32 1014

原创 R小波分解

R小波分解install.packages("wavelets")

2016-06-10 21:08:26 3924 1

原创 R网格MIC与频繁项集

频繁项集用 R 进行购物篮分析安装arules包并加载内置Groceries数据集library(arules) #加载arules程序包,如果没有install.packages("arules")data(Groceries) #调用数据文件inspect(Groceries) #观看数据集里的数据求频繁项集Eclat算法frequentsets=eclat(G

2016-06-10 21:07:30 588

原创 R随机生成数据并打乱排序

R随机生成数据并打乱排序  runif(100,0,2)----生成100个0-2的数--均匀分布sample(seq(0,2,by=0.00001),100,replace=TRUE)  ----生成差为0.00001的0-2的数列,从中随机取样100个并且允许重复正态分布rnorm(n,mean=,sd=)二项分布rbinom(m,n,p)打乱顺序-用抽样sam

2016-06-10 21:06:50 14820

原创 R时间序列分析包综合

passenger = read.csv('passenger.csv',header=F,sep=' ')plibrary("forecast")#把数据变成time series。  frequency=12表示以月份为单位的time series. start 表示时间开始点,可以用c(a,b,...)表示,  例如按月为单位,标准的做法是 start=c(2011,1) 表示从

2016-06-10 21:06:22 1869

原创 R时间序列分析

R时间序列分析   为什么定阶数,如何定,如何判断R时间序列分析工具xts包  xts(x=NUll,order.by=index(x),…)  coredata()   xts数据子集OHLC数据格式quantmod包TTR包自回归模型(AR)  跟以前时刻有关和当前随机游动有关AR(p)的性质平稳性要求:AR(2)特征根的模都小于1AR(p)的定阶 赤池

2016-06-10 21:05:17 7247

原创 R可视化绘图三-recharts

recharts安装  win7 成功library(RCurl)library(httr)library(htmltools)安装Rtoolsinstall.packages('devtools')library(devtools)install_github('yihui/recharts')ubuntu下安装R包出错  最后成功ERROR: con

2016-06-04 10:10:20 10261 14

原创 R可视化绘图二-ggplot2

散点图ggplot(msleep, aes(sleep_rem / sleep_total,awake)) +geom_point()  #等于 qplot(sleep_rem / sleep_total, awake, data =msleep)ggplot(msleep, aes(sleep_rem / sleep_total,awake)) +geom_point() +geom_s

2016-06-04 10:06:48 4304

原创 R可视化绘图一ggplot2之qplot

ggplot2的基本概念• 数据(Data)和映射(Mapping)• 标度(Scale)• 几何对象(Geometric)• 统计变换(Statistics)• 坐标系统(Coordinate)• 图层(Layer)• 分面(Facet)散点图library("ggplot2")qplot(carat, price, data = diamonds

2016-06-04 10:04:18 2379

原创 R聚类

聚类关键度量指标:距离距离的定义常用距离(薛毅书P469)绝对值距离  manhattan欧氏距离Euclide  euclidean闵可夫斯基距离切比雪夫距离Chebyshev  maximum马氏距离Lance和Williams距离  Lance   canberra   Williams  minkowski离散变量的距离计算dist( )函数

2016-06-04 10:02:14 1511

原创 R假设检验与一元线性回归分析

假设检验  相关系数 cor(x,y) cor.test(x,y)  相关系数越接近1,x与y越相关> data("iris")> plot(iris)> i1=iris[which(iris$Species=="setosa"),1:2]> plot(i1)> cor(i1[1],i1[2])> cor.test(i1$Sepal.Length,i1$Sepal.Wi

2016-06-03 09:51:04 4242

原创 R基于案例学习时间序列

基于案例学习时间序列时间序列的组成成分系统性部分– 水平– 趋势– 季节性非系统性部分– 噪声/随机扰动时间序列的组成成分加法模型– Y = 水平 + 趋势 + 季节性 + 噪声乘法模型– Y = 水平 × 趋势 × 季节性 × 噪声时间序列的可视化基本方法——时序图  以时间为横坐标,以时间序列相应的取值为纵坐标局部放大时序图改变时

2016-06-03 09:49:50 1399

原创 R回归诊断广义线性模型非线性模型

回归诊断样本是否符合正态分布假设?是否存在离群值导致模型产生较大误差?线性模型是否合理?误差是否满足独立性、等方差、正态分布等假设条件?是否存在多重共线性?正态分布检验正态性检验:函数shapiro.test()P>0.05,正态性分布 0.05的p值通常被认为是可接受错误的边界水平(p-value) 方差分析,F检验不显著,Pr>0.05p值为结果可信

2016-06-03 09:48:26 2695

原创 基于R语言的模型组合

组合预测模型---基于R语言的模型组合 算术平均法、 最优权数法、 方差倒数法模型中各参数的 t 值均显著 ,且通过 F 检验和拟合忧度检验c=c(1:20)b=c-0.1a=c-0.3方差倒数法e1=sum((c-b)^2)e2=sum((c-a)^2)w1=(1/e1)/(1/e1+1/e2)w2=(1/e2)/(1/e1+1/e2)

2016-06-01 20:44:58 3123 1

原创 天池大数据比赛,菜鸟仓库比赛,御膳房操作

御膳房--操作表名 描述 来源所属包 所属项目操作item_feature 商品粒度相关特征天池 查看包 tianchi_data (tianchi_data) 已授权config     每个商品在全国和分仓区域的补少...天池 查看包 tianchi_data (tianchi_data) 已授权item_store_feature 商品和分仓区域粒度相

2016-06-01 20:40:06 1743

原创 天池大数据比赛-菜鸟仓库比赛-第二赛季记录

统计全国仓库预测的前两周 商品_仓库_个数rm(list=ls())w=read.table("F:/笔记学习/天池比赛/菜鸟需求预测与分仓规划/data2/item_feature2.csv",header = FALSE,sep=",")e=unique(w$V2)x=0for (i in 1:length(e)){w1=w[which(w$V2==e[i]),]t

2016-06-01 20:38:54 2413

原创 天池大数据比赛-菜鸟仓库比赛-第一赛季记录

赛题说明链接R语言  1379640 918539  2021961 1365166   5个 。两个双11.两个双12 一个6.18(年中大促)统计全国仓库预测的前两周 商品_仓库_个数rm(list=ls())w=read.table("F:/笔记学习/天池比赛/菜鸟需求预测与分仓规划/item_feature01.csv",header = FALSE,sep

2016-06-01 20:35:39 2397 1

阿里平台MR

阿里御膳房平台MR示例代码-数加平台OPEN_MR示例

2016-06-16

阿里菜鸟仓库比赛说明

阿里菜鸟仓库比赛说明

2016-06-01

MATLAB神经网络原理与实例精解pdf

MATLAB神经网络原理与实例精解pdf书籍,留的是百度网盘,高清PDF,文件大于60MB,全书齐,神经网络学习必备

2016-03-17

Ambari安装

关于Ambari安装过程,亲测可用,Hadoop集群监控

2015-12-30

HADOOP实战__陆嘉恒著

机械工业出版社 HADOOP实战 陆嘉恒著

2015-10-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除