2016年06月_余音丶未散

原创博客写的时候很多内容由于图片问题会省略

github地址 https://github.com/lytforgood

2016-06-16 16:41:54 806

原创 win7安装github远程提交eclipse项目

win7安装git远程提交eclipse项目1.申请完git账户后，建立好代码库https://github.com new repository2安装插件Help——Install New Sofrwarehttp://archive.eclipse.org/egit/updates-1.3/选择合适版本，查看版本匹配http://wiki.eclipse.org/E

2016-06-30 21:30:39 452

原创 MapReduce之按照ID取模分区输出到不同文件下

很多时候需要对大文件进行分区最简单的是ID的hash分区利用MapReduce的分区把文件分割成到不同的文件中去方便后续的计算，例如KNN可以吧预测切分成多个小片分别读入预测package com.mr.partition;import java.io.IOException;import java.util.ArrayList;import java.util

2016-06-29 10:55:56 1432

原创 k近邻KNN之MapReduce实现

* 把预测的数据读入内存然后进行迭代计算 * 适用于预测数据很少训练数据很多 * 如果预测数据很多可以切分多分分别计算 * @author lenovo * 1,计算欧式距离(可根据实际情况修改距离公式) * 2,找出最近 * 输出topk使用TreeSet自己写TopKeyWritable排序package com.ml.mapreduce;impor

2016-06-29 09:51:14 4708 2

原创朴素贝叶斯之MapReduce版

1，统计词出现的次数1/计算类别的先验概率 *输入格式:类别+文档id+文档词(切分成A,b,c) *输出格式:类别+文档出现次数+文档出现的词的总数2/计算每个词的条件概率 *输入格式:类别+文档id+文档词(切分成A,b,c) *输出格式:类别+词+词的总数3/假设二分类问题-计算概率值 * 1类别+文档出现次数+文档出现的词的总数 * 2类别+

2016-06-28 21:08:09 11515

原创机器学习与R之朴素贝叶斯分类器

2016-06-28 10:34:18 4042 4

原创 Python机器学习与实战笔记之朴素贝叶斯分类

2016-06-28 09:15:21 2353

原创机器学习与R之KNN

k近邻法与kd树(与本文基本无关)为了提高k近邻搜索的效率，可以考虑使用特殊的结构存储训练数据，以减少计算距离的次数。具体方法有很多，这里介绍kd树方法参考http://blog.csdn.net/qll125596718/article/details/8426458R语言KNN实现K常用方法 K=训练数据数量的平方根字符变量利用哑变量编码，eg：0/1rm(li

2016-06-25 17:36:16 1506

原创 Python机器学习实战笔记之KNN算法

k-近邻算法测量不同特征值之间的距离方法进行分类优点：精度高、对异常值不敏感、无数据输入假定。缺点：计算复杂度高、空间复杂度高。适用数据范围：数值型和标称型。(常用欧氏距离)1收集数据2准备数据3分析数据4训练算法5测试算法6使用算法Python中识别中文文件开头添加#coding:utf-8分类代码#coding:utf-8fro

2016-06-25 11:33:33 1306

原创阿里音乐流行趋势预测大赛之数加平台OPEN_MR初体验

写在开头：OPEN_MR在数加平台上可用，ODPS_MR我还没跑出结果，先给大家演示一下OPEN_MR的简单使用。首先，建立一个Hadoop项目，可以使用御膳房的文档搭建环境(目的使代码能够编译通过)，后面附一份我的御膳房项目(配置maven后可直接导入eclipse使用)。附上示例代码：package hadoop.TianChiMapreduce;import java.i

2016-06-15 19:52:13 4221

原创 R主成分分析与因子分析

主成分分析通过将维把多个变量化成几个主成分的方法基本思想：设法将原先众多具有一定相关性的指标，重新组合为一组新的互相独立的综合指标，并代替原先的指标studentX1=c(148, 139, 160, 149, 159, 142, 153, 150, 151, 139,140, 161, 158, 140, 137, 152, 149, 145, 160, 156,151, 147

2016-06-11 17:17:55 1295

原创 R语言随机森林

R语言随机森林回归树模型（CART）决策树是一种倒立的树结构，它由内部节点、叶子节点和边组成。其中最上面的一个节点叫根节点。构造一棵决策树需要一个训练集，一些例子组成，每个例子用一些属性（或特征）和一个类别标记来描述。构造决策树的目的是找出属性和类别间的关系，一旦这种关系找出，就能用它来预测将来未知类别的记录的类别。这种具有预测功能的系统叫决策树分类器。其算法的优点在于:1)可以生成可以

2016-06-11 17:16:00 5392

原创 R语言maps绘图

安装maps包install.packages("maps")加载某个安装的R包：library("maps")map("state", interior = FALSE)map("state", boundary = FALSE, col="red", add = TRUE)map('world', fill = TRUE,col=heat.colors(10))实验

2016-06-11 17:14:43 5130

原创 R语言JSON转换

library("RJSONIO")解析JSONfromJSON()生成JSon数据框生成name=c(1:5)value=c(6:10)da=data.frame(name,value)dacat(toJSON(da)){ "name": [ 1, 2, 3, 4, 5 ],"value": [ 6, 7, 8, 9, 10 ] }键值对J

2016-06-11 17:13:42 7007

原创 R学习常用

rm(list=ls())#清空floor(1.6)[1] 1> ceiling(1.6)[1] 2取整，四舍五入生成时间序列d=seq(as.Date("2000/1/1"),as.Date("2000/1/5"), by="day") #按日生产从XXXX.XX.XX到XXXX.XX.XX时间d[-c(1,2,3)] 去掉向量第几个数据which(d ==

2016-06-11 17:12:44 649

原创 R参考卡片二

清除单个变量使用 rm() 函数，清除内存中所有的变量：rm(list=ls())合并字符串datadata分割字符串unlist(strsplit(,split=))函数创建向量和矩阵 =与c(), length(), mode(), rbind()#行, cbind()求平均值，和，连乘，最值，方差，标准差帮助help(函数名) help(mat

2016-06-10 21:10:32 1014

原创 R小波分解

R小波分解install.packages("wavelets")

2016-06-10 21:08:26 3924 1

原创 R网格MIC与频繁项集

频繁项集用 R 进行购物篮分析安装arules包并加载内置Groceries数据集library(arules) #加载arules程序包，如果没有install.packages("arules")data(Groceries) #调用数据文件inspect(Groceries) #观看数据集里的数据求频繁项集Eclat算法frequentsets=eclat(G

2016-06-10 21:07:30 588

原创 R随机生成数据并打乱排序

R随机生成数据并打乱排序 runif(100,0,2)----生成100个0-2的数--均匀分布sample(seq(0,2,by=0.00001),100,replace=TRUE) ----生成差为0.00001的0-2的数列，从中随机取样100个并且允许重复正态分布rnorm(n,mean=,sd=)二项分布rbinom(m,n,p)打乱顺序-用抽样sam

2016-06-10 21:06:50 14820

原创 R时间序列分析包综合

passenger = read.csv('passenger.csv',header=F,sep=' ')plibrary("forecast")#把数据变成time series。 frequency=12表示以月份为单位的time series. start 表示时间开始点，可以用c(a,b,...)表示，例如按月为单位，标准的做法是 start=c(2011,1) 表示从

2016-06-10 21:06:22 1869

原创 R时间序列分析

R时间序列分析为什么定阶数,如何定,如何判断R时间序列分析工具xts包 xts(x=NUll,order.by=index(x),…) coredata() xts数据子集OHLC数据格式quantmod包TTR包自回归模型(AR) 跟以前时刻有关和当前随机游动有关AR(p)的性质平稳性要求：AR(2)特征根的模都小于1AR(p)的定阶赤池

2016-06-10 21:05:17 7247

原创 R可视化绘图三-recharts

recharts安装 win7 成功library(RCurl)library(httr)library(htmltools)安装Rtoolsinstall.packages('devtools')library(devtools)install_github('yihui/recharts')ubuntu下安装R包出错最后成功ERROR: con

2016-06-04 10:10:20 10261 14

原创 R可视化绘图二-ggplot2

散点图ggplot(msleep, aes(sleep_rem / sleep_total,awake)) +geom_point() #等于 qplot(sleep_rem / sleep_total, awake, data =msleep)ggplot(msleep, aes(sleep_rem / sleep_total,awake)) +geom_point() +geom_s

2016-06-04 10:06:48 4304

原创 R可视化绘图一ggplot2之qplot

ggplot2的基本概念• 数据（Data）和映射（Mapping）• 标度（Scale）• 几何对象（Geometric）• 统计变换（Statistics）• 坐标系统（Coordinate）• 图层（Layer）• 分面（Facet）散点图library("ggplot2")qplot(carat, price, data = diamonds

2016-06-04 10:04:18 2379

原创 R聚类

聚类关键度量指标：距离距离的定义常用距离（薛毅书P469）绝对值距离 manhattan欧氏距离Euclide euclidean闵可夫斯基距离切比雪夫距离Chebyshev maximum马氏距离Lance和Williams距离 Lance canberra Williams minkowski离散变量的距离计算dist( )函数

2016-06-04 10:02:14 1511

原创 R假设检验与一元线性回归分析

假设检验相关系数 cor(x,y) cor.test(x,y) 相关系数越接近1,x与y越相关> data("iris")> plot(iris)> i1=iris[which(iris$Species=="setosa"),1:2]> plot(i1)> cor(i1[1],i1[2])> cor.test(i1$Sepal.Length,i1$Sepal.Wi

2016-06-03 09:51:04 4242

原创 R基于案例学习时间序列

基于案例学习时间序列时间序列的组成成分系统性部分– 水平– 趋势– 季节性非系统性部分– 噪声/随机扰动时间序列的组成成分加法模型– Y = 水平 + 趋势 + 季节性 + 噪声乘法模型– Y = 水平 × 趋势 × 季节性 × 噪声时间序列的可视化基本方法——时序图以时间为横坐标，以时间序列相应的取值为纵坐标局部放大时序图改变时

2016-06-03 09:49:50 1399

原创 R回归诊断广义线性模型非线性模型

回归诊断样本是否符合正态分布假设？是否存在离群值导致模型产生较大误差？线性模型是否合理？误差是否满足独立性、等方差、正态分布等假设条件？是否存在多重共线性？正态分布检验正态性检验:函数shapiro.test()P>0.05,正态性分布 0.05的p值通常被认为是可接受错误的边界水平(p-value) 方差分析，F检验不显著，Pr>0.05p值为结果可信

2016-06-03 09:48:26 2695

原创基于R语言的模型组合

组合预测模型---基于R语言的模型组合算术平均法、最优权数法、方差倒数法模型中各参数的 t 值均显著 ,且通过 F 检验和拟合忧度检验c=c(1:20)b=c-0.1a=c-0.3方差倒数法e1=sum((c-b)^2)e2=sum((c-a)^2)w1=(1/e1)/(1/e1+1/e2)w2=(1/e2)/(1/e1+1/e2)

2016-06-01 20:44:58 3123 1

原创天池大数据比赛,菜鸟仓库比赛,御膳房操作

御膳房--操作表名描述来源所属包所属项目操作item_feature 商品粒度相关特征天池查看包 tianchi_data (tianchi_data) 已授权config 每个商品在全国和分仓区域的补少...天池查看包 tianchi_data (tianchi_data) 已授权item_store_feature 商品和分仓区域粒度相

2016-06-01 20:40:06 1743

原创天池大数据比赛-菜鸟仓库比赛-第二赛季记录

统计全国仓库预测的前两周商品_仓库_个数rm(list=ls())w=read.table("F:/笔记学习/天池比赛/菜鸟需求预测与分仓规划/data2/item_feature2.csv",header = FALSE,sep=",")e=unique(w$V2)x=0for (i in 1:length(e)){w1=w[which(w$V2==e[i]),]t

2016-06-01 20:38:54 2413

原创天池大数据比赛-菜鸟仓库比赛-第一赛季记录

赛题说明链接R语言 1379640 918539 2021961 1365166 5个。两个双11.两个双12 一个6.18（年中大促）统计全国仓库预测的前两周商品_仓库_个数rm(list=ls())w=read.table("F:/笔记学习/天池比赛/菜鸟需求预测与分仓规划/item_feature01.csv",header = FALSE,sep

2016-06-01 20:35:39 2397 1

余音丶未散的博客