jmydream-CSDN博客

原创 cron

http://www.liusuping.com/ubuntu-linux/Redhat-linux-at-cron.htmlhttp://article.pchome.net/content-522566.html在 12 月内, 每天的早上 6 点到 12 点中，每隔3个小时执行一次 /usr/bin/backup :0

2013-05-14 16:36:23 698

ETL(Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程)作为BI/DW（Business Intelligence）的核心和灵魂，能够按照统一的规则集成并提高数据的价值，是负责完成数据从数据源向目标数据仓库转化的过程，是实施数据仓库的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图，数据是砖瓦的话，那么ETL就是建设大厦的过程。在整个项目中最难部分是用户需求

2013-04-19 14:13:07 835

原创一些概念

树旋转是在二叉树中的一种子树调整操作, 每一次旋转并不影响对该二叉树进行中序遍历的结果. 树旋转通常应用于需要调整树的局部平衡性的场合. 树旋转包括两个不同的方式, 分别是左旋转和右旋转. 两种旋转呈镜像, 而且互为逆操作.在计算机科学中，关联数组（Associative Array）（又称映射（Map）或字典（Dictionary））是一个抽象的数据结构

2013-04-17 15:51:52 684

原创 ubuntu输入法切换

lrwxrwxrwx 1 root root 30 Feb 4 10:45 zh_CN -> /etc/alternatives/xinput-zh_CNlrwxrwxrwx 1 root root 30 Feb 4 10:45 zh_HK -> /etc/alternatives/xinput-zh_HKlrwxrwxrwx 1 root root 30 Feb 4 1

2013-04-08 22:39:11 700

原创 yelp投票预测

> randomForest( review_votes.useful ~ ., data=rFdata, importance=TRUE, na.action=na.omit,proximity=TRUE,keep.forest=T)Error in randomForest.default(m, y, ...) : Can not handle categorical predic

2013-04-08 12:28:54 1684

原创 R函数

do.call('rbind', lapply(1:10, function(i) unlist(my_results[i])))reviews_user

2013-04-07 10:13:48 584

转载残差residual VS 误差 error

In statistics and optimization, statistical errors and residuals are two closely related and easily confused measures of "deviation of a sample from the mean": the error of a sample is the deviation o

2013-04-06 19:36:06 38637 2

原创 R语言convesio of json files to csv or R data format

library(RJSONIO)url con = file(url, "r")input my_results

2013-04-06 09:59:07 1875

转载 merge

函数功能2： merge：可以将两个dataFrame连接在一起，和数据库中sql语句JOIN很相似。Dataframe a(with columns x, y, z) and b (with columns x1, x2, y,z)可以生成新的Dataframe c(with columns x, y, z, x1, x2). merge(x

2013-04-06 09:29:38 690

原创缺失值处理

Here are some options:Use the feature’s mean value from all the available data.Fill in the unknown with a special value like -1.Ignore the instance.Use a mean value from similar items.Use an

2013-03-15 14:37:26 754

原创逻辑回归

Logistic 回归延伸了多元线性回归思想，即因变量是二值（为了方便起见通常设这些值为 0 和 1）的情形。和在多元线性回归中一样，自变量 x1 , x2 ,..., xk 也许是类别变量或连续变量或是两种类型的混合。Logistic regressionPros: Computationally inexpensive, easy to implement, knowl

2013-03-11 22:40:37 854

原创 R语言决策树算法

1,生成树：rpart()函数raprt(formular,data,weight,subset,na.action=na.rpart,method,model=FALSE,x=FALSE,y=TRUE,parms,control,cost,...) fomula ：模型格式形如outcome~predictor1+predictor2+predictor3+ect。

2013-03-07 22:30:57 8525

原创知识细节

非参数统计数理统计学的一个分支。如果在一个统计问题中，其总体分布不能用有限个实参数来刻画，只能对它作一些诸如分布连续、有密度、具有某阶矩等一般性的假定，则称之为非参数统计问题。optimization algorithm:The first optimization algorithm we’re going to look at is called gradient

2013-03-07 21:54:26 912

原创 decision tree

recent surveys claim that it’s the most commonly used technique.One of the best things about decision trees is that humans can easily understand the data.The decision tree does a great job of di

2013-03-06 21:43:21 823

原创特征选取

增益值算法

2013-03-06 21:17:18 1034

转载距离和相似度度量

在数据分析和数据挖掘的过程中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如K最近邻（KNN）和K均值（K-Means）。当然衡量个体差异的方法有很多，最近查阅了相关的资料，这里整理罗列下。　　为了方便下面的解释和举例，先设定我们要比较X个体和Y个体间的差异，它们都包含了N个维的特征，即X=（x1, x2, x3

2013-03-06 20:59:29 1526

转载 KNN算法理解

一、算法概述1、kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。最简单平凡的分类器也许是那种死记硬背式的分类器，记住所有的训练数据，对于新的数据则直接和训练数据匹配，如果存在相同属性的训练数据，则直接用它的分类来作为新数据的分类。这种方式有一个明显的缺点，那就是很可能无法找到完全匹配的训练记录。kNN算法则是从训练集中找

2013-03-06 20:51:00 95519 2

原创做事

慢慢悠悠的做事也挺好，不必急于求成，不管别人怎样，有自己的节奏。

2013-02-26 13:46:38 721

原创 2012总结

今天是实习的最后一天，也没有什么工作安排。还是总结一下自己的2012吧这两年的研究生生活浮躁、迷茫，加上家里的压力，脾气越来越差，一点修养也没有了。本来就是个悲观主义者，又挺能争强好胜，搞的自己活的好累。年初告诫自己要好好过，家里情况也会越来越好的。来学校后找了几份兼职，导师的补助也发的多了，老公也会给。钱基本不是很愁了。但是暑假就要找工作了，感觉自己知识能力都很欠缺，心

2013-02-05 15:39:31 701

原创 ccms新版本按上线记录

本来以为是件很简单的事情，可是搞了好久才搞定。对hive细节了解不够，上线布置流程了解不够。问题：load相当于mv，所以源数据只能供一个统计脚本使用。新版本的数据源要通过select的方式获取。参数格式，时间居然是用20100202的方式给的，hive是不能处理这种时间格式，修改参数。初始化所有历史数据时，动态分区会丢失。所以只初始化90天数据，

2013-02-05 10:00:59 570

原创 machine learning in action

k-Nearest NeighborsPros: High accuracy, insensitive to outliers, no assumptions about dataCons: Computationally expensive, requires a lot of memoryWorks with: Numeric values, nominal values

2013-02-04 16:30:12 565

原创 ccms bug记录1

20130202周期表结果中有重复记录：查到是t_latitude_period_exuid的重复记录：重新跑：insert overwrite table t_latitude_period_exuid partition(stat_time='{STAT_DATE}',latitude_type)select * from( select user_name

2013-02-03 11:31:26 404

原创 ccms未解决错误

Starting Job = job_201301281440_18226, Tracking URL = http://master:50030/jobdetails.jsp?jobid=job_201301281440_18226Kill Command = /home/hadoop/hadoop-1.0.3/libexec/../bin/hadoop job -Dmapred.job.

2013-02-03 08:55:40 1099

原创 hive 错误记录

[hadoop@master ~]$ hive -e "load data inpath '/fenxi_system/cs/20130131/sms_20130131' overwrite into table ccms_stat_opt.s_sms partition(stat_time='2013-01-31')"WARNING: org.apache.hadoop.metrics.jv

2013-02-01 17:57:21 1094

转载峰度（Kurtosis）和偏度（Skewness）

3.1.6 峰度（Kurtosis）和偏度（Skewness）峰度是描述总体中所有取值分布形态陡缓程度的统计量。这个统计量需要与正态分布相比较，峰度为0表示该总体数据分布与正态分布的陡缓程度相同；峰度大于0表示该总体数据分布与正态分布相比较为陡峭，为尖顶峰；峰度小于0表示该总体数据分布与正态分布相比较为平坦，为平顶峰。峰度的绝对值数值越大表示其分布形态的陡缓程度与正态分布的差异程度越大。

2013-02-01 17:56:37 29312

原创 ubuntu使用总结

桌面快捷键总结

2013-02-01 14:42:19 385

原创 R使用问题

package 'plyr' could not be loaded 好像时默认安装的lib权限不够导致，改变lib的路径权限即可

2013-02-01 14:41:10 412

原创 hive细节测试

select weekofyear('2013-02-02'), weekofyear('2013-02-03'),weekofyear('2013-02-04') from udfdate;5 5 6周六周日周一

2013-01-31 15:21:51 508

原创 python 时间处理

def lastweek(curr_date): yearS=curr_date[0:4] monthS=curr_date[4:6] dayS=curr_date[6:8] stat_date=date(int(yearS), int(monthS), int(dayS)) week=date.strftime(stat_date, '%W')

2013-01-31 14:57:03 667

原创 Rstudio画图问题

Error in RStudioGD() : Shadow graphics device error: r error 4 (R code execution error)原来时安装的时候：./configure --enable-R-shlib --with-x=no 改为：./configure --enable-R-shlib 就OK了

2013-01-30 17:51:46 7394 1

原创 ccms 工作记录

一共有job数为：86周期可以重复计算bug1: where month(send_time)=month('{STAT_DATE}')-1 当month为1时，会得出结果为0.所以要改为： where month(send_time)=case (month('{STAT_DATE}')-1 ) when 0 then 12上周逻辑周期

2013-01-30 17:00:44 534

原创 R安装问题

configure: error: No F77 compiler foundapt-get install gfortranC++ preprocessor "/lib/cpp" fails sanity checkapt-get install g++headers/libs are not available sudo apt-get instal

2013-01-30 16:35:40 2007

原创 Rhadoop中修改Reduce输出分割符

mjiang@jiangmingyan:~/hadoop_work/hadoop-1.0.3/src/mapred/org/apache/hadoop/mapred$ ls -i *Format* 7996170 FileInputFormat_Counter.properties 7996272 InputFormat.java 7996189 OutputForm

2013-01-29 23:36:50 1059

原创上线规范

旧版本切换到新版本时：有修改要点功能设计：必须支持重复导程序：尽量变量尽量无耦合

2013-01-29 23:24:52 559

原创 hive 细节

如果reduce个数过少(配置文件设置，而非自动生成)，可能会出现错误：013-01-16 18:04:49,311 FATAL org.apache.hadoop.mapred.Child: Error running child : java.lang.OutOfMemoryError: allocLargeObjectOrArrayhive能自动识别join是否可以转化位mapjio

2013-01-28 23:50:21 1217

原创 mahout 读书

People tend to like things that are similar to other things they like.Mahout contains a recommender engine – several types, in fact, beginning with conventional user-basedand item-based recomm

2013-01-24 16:52:18 367

原创 linux系统分区调整失败后补救

当时安装ubuntu系统时，给/home的分区太大了，想缩小/home分区，ddcp -a只要不格式化分区一致就OKcp -a /home/mjiang后，修改chown就OK一波刚平，一波又起。新挂载的sdc又出现只读的问题，后死机，重启又不行了。卸载除启动盘的其他盘后，OK了。能进入系统了。sdbsdc是根据插槽

2012-09-14 20:34:13 864

原创 ubuntu安装软件列表与系统配置

开发软件：hadoophivesqoopthrifteclipse rstudio日常软件：scrot系统配置：终端提示颜色：force_color_prompt=yes只有在每个用户下生效，没有统一生效的方法eclipse插件安装：怎么装也不成功，只好重新安装了eclipse后就ok了。svn: subclipsepytho

2012-09-14 15:43:08 411

原创 eclipse插件安装

python：

2012-09-14 11:18:26 308

原创 linux应用便捷学习

alias yed='java -jar /usr/local/yed-3.9.2/yed.jar'不同用户名下cp用scp

2012-09-14 11:08:39 412

空空如也

空空如也