自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

韩王-信

已故的神话,旧事休要重提

  • 博客(251)
  • 收藏
  • 关注

转载 数据挖掘基本算法

数据挖掘主要分为4类,即预测、分类、聚类和关联,根据不同的挖掘目的选择相应的算法。R语言博大精深,吸纳了来自各方的挖掘算法包,这些包都是由统计学家或是算法研究人员提供,我们可以站在这些伟人的肩膀上实现算法的应用。下面对常用的数据挖掘包做一个汇总:连续因变量的预测:stats包lm函数,实现多元线性回归stats包 glm函数,实现广义线性回归stats包 nls函数,实

2016-12-20 20:03:15 1222

原创 ggplot 多列bar图

ggplot 多列情况下bar图,geom_bar 的y只是支持一列不像barplot一样,要实现多列的需要把其余的列数转换成一列dsgmvorderdf##第一种方法是使用reshape的melt#install.packages('reshape2')#library('reshape2')df2pprint(p)##

2016-10-02 17:07:08 3326

原创 统计频率和频数

使用内置的mtcars统计频数table(mtcars$gear)统计频率paste0(round(prop.table(table(mtcars$gear)),2)*100,’%’)统计频率的另一种方法,使用arregatetotal<-length(mtcarsgear)b<−aggregate(mtcarsgear) b<-aggregate(mtcarsgear,by=list(mtca

2016-10-01 17:55:39 2081

原创 R中的排序

1、order 是返回内在的排序位置,而不是直接返回排序结果。a> order(a)[1] 3 1 2 5 4order 默认是asc的如果要desc的直接加-号> order(-a)[1] 4 5 2 1 3order 返回结果> a[order(-a)][1] 23 20 15 12  9order的这样的特性在datafra

2016-10-01 14:26:01 1045

原创 igraph关系图

导入关系测试数据,如下,这个不是用户和用户之间的关心,而是用户和环境信息的关系,基于用户和设备之间的关系,不同的设备用不同的颜色标出来###从csv文件中读取关系数据df###从关系数据中整理出来顶点的数据,vertex##给用户的顶点统一表上黑色co##根据设备类型进行着色iwhile (i##生成顶点数据框vertex###组合成

2016-09-30 20:20:12 5728

原创 ggplot2 分面多数据源组合示例

library(ggplot2)source('~/R/odps_common.R')sql' select cust_name_cn,yyyymm as ds,gmv,amplitude,rn  from icbubi.dwa_en_ftrd_mon_cust_gmv_d   where ds=max_pt(\'icbubi.dwa_en_ftrd_mon_cust_gmv_

2016-09-29 13:17:07 2512

原创 R中关于显示标签的几个问题

1、使用统计变换summary后的标签值得显示,统计变换后需要用到衍生变量来显示变换后的统计值df  x=c(3,1,5,3),  y=c(2,4,6,10),  label=c('a','a','a','b'))  ggplot(data=df,aes(x=as.character(x),y=y))+geom_bar(fun.y=sum,stat='summary')

2016-09-21 18:55:39 5317

转载 linux环境变量设置错误后,如何恢复解决方案:

linux环境变量设置错误后,如何恢复解决方案:在命令行中输入:export PATH=/usr/bin:/usr/sbin:/bin:/sbin:/usr/X11R6/bin

2015-08-01 11:12:48 2214

转载 mysql 安装无法登录无法修改root密码

# mysqld_safe --user=mysql --skip-grant-tables --skip-networking &# mysql -u root mysqlmysql> UPDATE user SET Password=PASSWORD('newpassword') where USER='root';mysql> FLUSH PRIVILEGES;mysql> quit

2015-06-23 19:31:23 883

转载 R语言中的四类统计分布函数

R语言中的四类统计分布函数R语言中提供了四类有关统计分布的函数(密度函数,累计分布函数,分位函数,随机数函数)。分别在代表该分布的R函数前加上相应前缀获得(d,p,q,r)。如:1)正态分布的函数是norm,命令dnorm(0)就可以获得正态分布的密度函数在0处的值(0.3989)(默认为标准正态分布)。2)同理,pnorm(0)是0.5就是正态分布的累计密度函数在0处的值。

2015-05-29 09:25:01 6885

原创 R矩阵的索引

1、矩阵可由向量转换得到,所以矩阵原则上用向量的索引方法> a=matrix(1:12,3,4)> a     [,1] [,2] [,3] [,4][1,]    1    4    7   10[2,]    2    5    8   11[3,]    3    6    9   12使用二维索引> a[1,2][1] 4

2015-04-20 21:20:50 7064

原创 python 函数参数 调用的常见方法

##unpacked list or tuple for parametersa=[1,5,3]def getg(test,*value):    print(test)    for i in value:        print(i)getg('go from here',*a)##arbitrary argument list

2015-02-14 13:49:17 736

原创 mac 配置sshd

在mac启动sshd提示Could not load host key: /etc/ssh/ssh_host_rsa_keyCould not load host key: /etc/ssh/ssh_host_dsa_key解决办法:以root 到etc目录下ssh-keygen -t dsa -f /etc/ssh/ssh_host

2014-12-29 15:28:14 2098

原创 linux shell join命令一定要把文件先sort,而且不能有空行否则后果很严重

如题

2014-10-30 12:09:01 2719

原创 linux 下查看和转换文件字符集

可以使用file 查看编码 用iconv 更改iconv -f GBK -t utf8 query.txt>query2.txt

2014-10-28 13:39:12 905

原创 shell 正则截取字符串

shell 正则截取字符串用sed替换功能 echo 'weihongrao' |sed 's/wei\(hong\)rao/\1/g'比如我有如下文件 test.txt12344554534543232534sdfhosnfsdfwueorhalfsafsdfse1231231823918231247391274921djflajsdfasff

2014-09-23 11:30:37 15764

转载 bash shell中expr命令下几种的使用

expr在linux中是一个功能非常强大的命令。通过学习做一个小小的总结。1、计算字符串的长度。我们可以用awk中的length(s)进行计算。我们也可以用echo中的echo ${#string}进行计算,当然也可以expr中的expr length $string 求出字符串的长度。举例[plain] view plaincopy

2014-08-29 09:08:34 4827

原创 命令行升级ubuntu

昨天手贱在ubuntu 点击了升级,升级完成之后没法进入系统,索性将错就错把决心吧系统从12.04 直接升级到13.10.1. 因为我的任何界面都无法进入,所以选择previous version的recovery 模式进去,把网线插好,先选择network 那一项启动网路2. 选择resume模式以root登录command3 ping 一个网址看看网络是否是通的4.apt-ge

2014-03-30 14:15:25 680

转载 ubuntu gedit 显示中文

gsettings set org.gnome.gedit.preferences.encodings auto-detected "['GB18030', 'UTF-8', 'CURRENT', 'ISO-8859-15', 'UTF-16']"参考http://wiki.ubuntu.com.cn/Gedit%E4%B8%AD%E6%96%87%E4%B9%B1%E7%A0%81

2014-03-28 09:24:44 692

原创 ubuntu 下ln 动作 源文件和目标文件必须用完整路径否则会不成功

如题

2014-03-26 16:41:39 1279

转载 ubuntu 访问window共享

在命令行模式下mount //192.168.1.3/server_share  -o user=DOMIAN\\user,pass=passwd /mnt注意有两点(1),domain这里是域名,并且12.04要 必须大写,不知道的话在界面打开主文件夹点击网络来查看。(2),这里有两个\\,其中第一个是转义符,第二个是\

2014-03-26 08:10:26 533

原创 ubuntu 下安装xmind

1.到xmind官方网站上下载deb包 xmind-linux-3.4.1.201401221918_amd64.deb2. sudo dpkg --ignore-depends=sun-java5-jre,sun-java6-jre,openjdk-6-jre -i xmind-linux-3.4.1.201401221918_amd64.deb 这一步确保已经安装了java ,我由于安

2014-03-25 16:45:33 3433

原创 linux 根据文件路径自动创建文件夹

[root@hadoop henhao]# file="hongrao/expedia/egencia/accountdim.txt"[root@hadoop henhao]# path=${file%/*} #这里获取文件的路径[root@hadoop henhao]# mkdir -p $path  #mkfir -p 在目录不存在的情况下自动创建路径[root@hadoop he

2014-02-17 14:14:13 7427

原创 linux 字符串转换成数组

linux中数组用小括号定义,所以转换的时候只需要吧变量放在小括号中即可1. 直接创建数组[root@hadoop ~]# names=(wei hong rao)[root@hadoop ~]# echo ${#names[@]}32.通过命令结果获取数组[root@hadoop ~]# names=($(echo 'wei hong rao') )[root@h

2014-02-17 11:21:49 6919

原创 linux 显示控制符号和制表符号

测试文件[root@hadoop ~]# cat t.txtwei     hong    rao#这里用tab分割wei hong rao#这里用空格分割raog#这里用^M(CTRL+V+M)分割weihongrao#这里用^^(CTRL+V+^)分割weihongrao#这里用^T(CTRL+V+T)分割wei     hong    rao#这里用TAB键分

2014-02-17 11:03:17 1936

原创 read 数组

hadoop@hadoop:~$ IFS=$tmpIFShadoop@hadoop:~$ IFS='#'hadoop@hadoop:~$ echo "${IFS}"#hadoop@hadoop:~$ echo "wei#hon#rao"|while read -a names;do echo "the len of the array is ${#names[*]}";done

2014-02-16 15:42:56 1002

原创 linux 管道产生子shell

linux中使用管道,下一个命令会放在子shell中执行,子shell中是不能访问主shell的变量hadoop@hadoop:~$ cat file.txthanxinhadoop@hadoop:~$ me=weihongraohadoop@hadoop:~$ cat file.txt | while read line;do me=$line;echo "inner me is

2014-02-16 15:42:42 1820

原创 linux下xargs基本用法

新建一个文件看下有如下测试数据hadoop@hadoop:~$ cat test.txtweihongrao is stupyhohai universityfirst time to shenzhen is 2009now i will goend hereshell 文件如下hadoop@hadoop:~$ cat test.sh#!/bin/bas

2014-02-16 14:10:53 813

原创 linux显示可打印字符串

strings命令

2014-02-14 15:04:58 1052

原创 linux 文件类型

linux 的文件类型主要有以下几种,在用ls -l显示-:普通文件l:连接文件c:字符设备d:目录b:块文件p:管道文件s:socket文件 除了用ls -l可以查看文件类型外在shell编程中还常用stat 命令来方便的取出文件各种属性值,1. 所有属性[root@hadoop ~]# stat go4.txt  File: `go4.t

2014-02-14 15:00:48 606

原创 检索文本例子结合sed,head,tail,cut

有如下文本[root@hadoop ~]# cat s.txthead testhead test againweihongrao startthis is goingweihongrao is stupyweihongrao is the rulerendweihongrao but still goingendweihongrao this is true

2014-02-11 18:29:24 821

转载 linux vi 命令大全

进入vi的命令vi filename :打开或新建文件,并将光标置于第一行首vi +n filename :打开文件,并将光标置于第n行首vi + filename :打开文件,并将光标置于最后一行首vi +/pattern filename:打开文件,并将光标置于第一个与pattern匹配的串处vi -r filename :在上次正用vi编辑时发生系统崩溃,恢复filenamevi filen

2014-02-01 21:03:22 811

转载 linux less

less 工具也是对文件或其它输出进行分页显示的工具,应该说是linux正统查看文件内容的工具,功能极其强大。less 的用法比起 more 更加的有弹性。在 more 的时候,我们并没有办法向前面翻, 只能往后面看,但若使用了 less 时,就可以使用 [pageup] [pagedown] 等按键的功能来往前往后翻看文件,更容易用来查看一个文件的内容!除此之外,在 less 里头可以拥有更多的

2014-02-01 16:30:03 550

原创 linux shell 变量的名称来源于另一个变量的值

[root@hadoop ~]# name=me[root@hadoop ~]# name="me"[root@hadoop ~]# me="hongrao"第一种方法[root@hadoop ~]# eval echo \$$namehongrao第二种方法,bash2.0[root@hadoop ~]# echo ${!name}hongrao

2014-01-26 15:35:56 1502

转载 linux tr 命令详解

linux tr 命令详解http://blog.chinaunix.net/u2/66903/showart_1902477.html 1、关于tr   通过使用 tr,您可以非常容易地实现 sed 的许多最基本功能。您可以将 tr 看作为 sed 的(极其)简化的变体:它可以用一个字符来替换另一个字符,或者可以完全除去一些字符。您也可以用它来除去重复字符。这就是所有

2014-01-14 16:37:58 626

转载 Linux Shell Bash 带有特殊含义的退出码

SYSTEM ADMINISTRATIONLinux Shell Bash 带有特殊含义的退出码表格 D-1. "保留的"退出码退出码的值含义例子注释1通用错误let "var1 = 1/0"各种各样的错误都可能使用这个退出码, 比如"除0错误"2shel

2014-01-14 11:26:32 1166

转载 Hadoop 新 MapReduce 框架 Yarn 详解

Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapRe

2014-01-09 14:45:59 697

原创 java 线程池 执行callable 的返回值问题

java中使用线程池能保证线程的并发量,当使用线程池来提交线程时候,如果是callable的线程应当注意有返回值的情况下会引起主线程(通常是调用线程或者main线程阻塞),导致线程会顺序执行。如下:import java.util.concurrent.*;class myCallable implements Callable{       public String

2014-01-08 15:43:54 2536

原创 java 多线程的三种方法

1. 继承Thread类,使用这样的办法不可以多个线程共享线程资源public class myTread extends Thread {    /**     * @param args     */    private int j=0;            @Override        public void run() {    

2014-01-08 14:51:38 777

原创 hive reduce 个数

hive在执行一个HQL产生的MR JOB的时候默认是以以下方式决定reducer的个数的,N=min(参数2,总输入数据量/参数1)第一个参数 默认为1000^3 : hive.exec.reducers.bytes.per.reducer第二个参数 默认为999 :hive.exec.reducers.max(默认为999)可以手动设置这个值set mapred.reduc

2013-12-27 10:27:24 734

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除