j3smile-CSDN博客

原创 hive 动态分区分区数太多出错

insert overwrite table lobehaviour_trade_daily partition (part) select dp_id, buyer_nick, to_date(created), payment, 0 as item, if(to_date(modified)from taobao.s_trade_hbase where (partdistrib

2013-10-30 17:33:56 3607

转载 ubuntu 进入单用户模式

进入单用户模式: 按shift进入1、开机到grub时，用上下键移到第二行的恢复模式，按e（注意不是回车）即Ubuntu，With Linux 3.2.0-23-generic（recovery mode）2、把ro recovery nomodeset 改成rw single init=/bin/bash 然后按ctrl+x 就可以进入单用户模式。

2013-10-29 18:22:58 14550

原创 ubuntu 重启后黑屏

根目录下满了，做了写操作，重启后就黑屏了。能进init 3 不能进 init5 说明图形界面不能用了。然后开机时按e进入，将splash删除后启动，进入无界面登录start lightdm 后：failed to use bus name org.freedesktop.displaymanager然后：http://www.kubuntuforums.net/arc

2013-10-29 17:19:40 6168

原创 R cannot mkdir R_TempDir

If /tmp is full, you can't create subdirectories there.

2013-10-29 11:54:17 3670

原创 R 朴素贝叶斯垃圾邮件分类

问题1：直接计算先验概率的话，连乘导致数据溢出。不能比较大小。解决：转乘为加

2013-10-24 18:36:37 1241

原创部署需要考虑

一半一半的来数据

2013-10-24 17:23:12 572

原创项目发布

发布过程中涉及的每一步必须搞明白refund发布过程中出错

2013-10-24 10:59:02 549

原创 R 错误

get_msg(file.path(hard_ham,files[250]))Error in (which(nchar(msg, allowNA = T) == 0)[1] + 1):length(msg) : NA/NaN argumentwhich(nchar(msg, allowNA = T) == 0)[1]返回NA

2013-10-23 23:01:58 1689

原创 R tm

> tdm <- TermDocumentMatrix(doc.corpus)Error in simple_triplet_matrix(i = i, j = j, v = as.numeric(v), nrow = length(allTerms), : 'i, j, v' different lengthsIn addition: Warning messages:1: In

2013-10-23 16:48:14 2790

原创 eclipse 打包时包括外部jar

在这个项目下建个lib目录，将所有依赖的jar包放在这里面。然后：通过add jars添加进来就OK了

2013-10-22 18:01:35 666

原创 hadoop远程客户端安装配置、多用户权限配置

hadoop远程客户端安装配置客户端系统：ubuntu12.04客户端用户名：mjiang服务器用户名：hadoop下载hadoop安装包，保证和服务器版本一致（或直接copy服务器的hadoop安装包）到 http://mirror.bjtu.edu.cn/apache/hadoop/common/ 下载tar.gz安装包，解压。tar zxvf had

2012-08-20 19:14:58 20085 2

原创 Sqoop客户端安装以及使用小结

SQOOP是一款开源的工具，主要用于在HADOOP(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，下面从SQOOP用户手册上摘录一段描述Sqoop is a tool designed to transfer data between Hadoop andrelational databases. You can use Sqoop to import

2012-08-20 19:13:34 15497

原创 20120820

hive> load data inpath '/fenxi_system/r_fx_daily_all/stat_time=20120612/000000_0' overwrite into table r_fx_daily_all partition(stat_time='20120612'); FAILED: Parse Error: line 1:0 character ' ' n

2012-08-20 15:32:45 3257

转载关于distinct 和group by的去重逻辑浅析

http://liuzhiqiangruc.iteye.com/blog/1461038关于distinct 和group by的去重逻辑浅析博客分类：数据仓库数据架构SQLgroup bydistinctsqlgroupdistinct数据库在数据库操作中，我们常常遇到需要将数据去重计数的工作。例如：表A，列colACABCD

2012-08-18 20:44:01 25294 1

原创 20120817

6:28hive> from r_fx_daily_all > insert into table r_fx_period_all partition(stat_time='20120807') > select user_name,1,sum(sms_send_count),1,1,1,1,1,1,1,1,1,1,1,1 > group by

2012-08-17 18:23:54 747

原创 ubuntu下hive安装

hadoophive版本0.9.0下载hive0.9.0版本:http://mirror.bjtu.edu.cn/apache/hive/hive-0.9.0/解压 tar zxvf hive-0.9.0.tar.gz配置:$$ $HADOOP_HOME/bin/hadoop fs -mkdir /tmp$$ $HADOOP_HOME/bin/hadoop

2012-08-17 13:49:14 1710

原创 20120815

`````````````````????insert overwrite table t_calc_sms_ex_base partition(stat_time='20120807')select /*+mapjoin(b)*/a.user_name,b.camp_id,b.project_id,b.camp_type,a.send_time,a.mobile,a.sms_bill

2012-08-15 15:05:07 1912

原创 20120813record

｀｀｀｀｀｀｀｀｀｀｀｀｀｀｀｀｀sql中连接有多个表时。都是有效的。 join 后表继续可用。｀｀｀｀｀｀｀｀｀｀｀｀｀｀if(a.user_name is null,b.user_name,a.user_name) 三木运算｀｀｀｀｀｀｀｀｀｀｀｀｀｀11111111111111111hive实践hive> load data local inpath '/home

2012-08-14 19:28:52 13390

原创 record

````````````````5:15xxxxxxxxxxxxx select user_name,task_id,send_time,count(uid) from s_sms group by user_name,task_id,send_time; >>re ;xxxxxxxxxxxxx select user_name,task_id,send_time,count

2012-08-14 17:12:08 2497

转载 HIVE的CTAS用法探究

文章转载自：量子恒道官方博客HIVE的CTAS用法探究Posted by lengchuan on 2011 年 4 月 29 日Leave a commentGo to comments最近在使用ADM系统的时候遇到一个问题，ADM在自动将HIVE QL包装成CTAS之后，由于HIVE内部缺省使用’N’来存储NULL，这样就会产生一个问题，因为我们处理的很多结

2012-08-14 14:27:43 4133

原创数云－与师傅学习

20120813：程序间的相互依赖尽量要少。优化要考虑要必要吗？重构的效率问题，尽量不要大改

2012-08-14 10:09:43 641

原创 record

11111111111tipsinsert into table r_fx_period_all partition(stat_time='{CURRENT_DATE}')｀｀｀｀｀｀｀｀｀｀｀｀｀3：47 Context Line Control -A NUM, --after-context=NUM Print NUM line

2012-08-13 10:48:51 654

原创 hadoop1.0.3 源码通过svn导入eclipse

svn插件安装版本与eclipse不对应重新ant

2012-08-10 15:20:01 1961

原创 hadoop修改权限问题

core-site.xml106 107 #jiangmingyan@2012.07.26 for sqoop uses mjiang form remote node108 109 hadoop.proxyuser.oozie.groups110 mjiang111 Allow the superuser oozie to impersonate any memb

2012-08-10 15:04:31 2611

原创 hadoop多个模式的安全转换

1：确保不同模式在HDFS下有不同的文件存储位置所有配置文件都在conf下，只需修改其下的配置即可默认配置在find ./ -name core-default.xml src/core/core-default.xml1）file:///home/mjiang/hadoop-1.0.0/docs/core-default.htmlhadoop.t

2012-08-10 11:39:18 459

原创 ubuntu下eclipse与python，mysql结合

以前在gentoo linux的eclipse安装过，想直接用以前的文件，结果不显示。环境system:ubuntu12.04eclipese:3.7.2python:2.7.3mysql：5.5eclipe安装python插件在eclipse菜单栏－>eclipse maketplace->搜索pydev:点击pydev for ec

2012-08-10 11:14:01 25000

原创 hive学习记录

2012.08.07python中运行hive>>> command = "hive -e " + "\"" + load data inpath '/fenxi_system/cs/20120612/sms_20120612' overwrite into table s_sms partition(stat_time='20120612') + "\"" File

2012-08-10 10:30:04 711

原创 ubuntu使用问题记录

ubuntu的菜单栏默认是隐藏的，刚安装完时以为安装不成功，因为找不到eclipse的菜单栏。查看当前内核能支持哪些睡眠模式：# cat /sys/power/statemem disk （内核只支持两种睡眠模式）

2012-08-10 09:55:50 429

原创工作要求

学习能力，基础知识是否扎实1、设计实现阿里巴巴B2B分布式数据库、分布式计算相关技术产品；2、协助部门制定产品计划，持续改善产品；职位要求：1、有扎实的计算机理论基础,对数据结构及算法有较强的功底；2、熟练掌握Java/C++编程语言，兼有

2012-07-27 09:31:19 509

转载 Java异常分类

在jdk中，每个包中都定义了异常类，而所有的异常类都直接或间接地继承于Java.lang.Throwable类。下图为jdk中异常类的继承关系。java中的异常类可分为两大类：Error动态链接失败，虚拟机错误等，通常Java程序不应该捕获这类异常，也不会抛弃这种异常。Exception运行时异常：继承于RuntimeException的类都属于运行时异常，

2012-06-20 08:47:01 643

转载 Microsoft Office Document Imaging File (.mdi)文件怎么转成图片格式

Microsoft Office Document Imaging File (.mdi)文件怎么转成图片格式[ 标签：office, document, imaging ]: yiyt'.2009-04-29 08:56满意答案好评率：66%需要用这个程序打开。启动菜单：开始→程序→Microsoft Office→Microsoft Office 工具→Microsof

2012-06-14 15:14:24 6605

转载彻底理解面向对象的多态

原文链接彻底理解面向对象的多态一、序言初学C++的时候，对面向对象的多态实现机制总处于模糊的理解状态。近日研究起java，才得以对其有较清晰的认识。现将我对多态的认识写成日志，以供己供人参考。二、知识准备在分析多态之前，有必要对一些概念巩固认识一下。 1、变量变量是一个由标识符命名的数据项。它包括三个属性：类型、名称、值。此外，变量还具有一

2012-06-11 16:11:19 561

转载 JAVA动态绑定的内部实现机制

原文链接JAVA动态绑定的内部实现机制 JAVA虚拟机调用一个类方法时，它会基于对象引用的类型(通常在编译时可知)来选择所调用的方法。相反，当虚拟机调用一个实例方法时，它会基于对象实际的类型(只能在运行时得知)来选择所调用的方法，这就是动态绑定，是多态的一种。动态绑定为解决实际的业务问题提供了很大的灵活性，是一种非常优美的机制。1 JAVA对象模型 JAVA虚拟机规范并没有

2012-06-11 11:33:42 477

转载怎么才能在word里从第三页开始编页码啊

1、将光标定位于需要开始编页码的页首位置(也就是你的第三页)。 2、选择“插入-分隔符”，打开“分隔符”对话框，在“分隔符类型”下单击选中“下一页”单选钮。 3、选择“视图-页眉和页脚”，并将光标定位于页脚处。 4、在“页眉和页脚”工具栏中依次进行以下操作： ①单击“链接前一个”按钮，断开同前一节的链接。 ②单击“插入页码”按钮，再单击“页码格式”按钮，打开“页码格式”对话框。 ③在“

2012-06-04 22:56:04 2065

原创 word自动生成目录

1：格式－》样式和格式2：在已存在的格式中找到标题1。然后对其进行扩展。3：在应用时，按Tab键自动向下一级编号。4：用格式刷刷文字。5：插入－》引用－》索引和目录。插入目录。按空格键后缩

2012-06-04 16:30:12 566

原创 hadoop1.0.0版本下DistributedCache实现

边数据分布：边数据是作业所需的额外的只读数据，以辅助处理主数据集。所面临的挑战是如何使所用Map和Reduce任务都能够方便而高效的使用边数据。我们用DistributedCache Api实现：1）刚开始用1.0.0的api怎么也不行，运行到patternsFiles = DistributedCache.getLocalCacheFiles(job);patternsFil

2012-04-12 11:12:25 976

原创 gentoo管理细节

1）gentoo emerge 网络配置（用代理时）在 wget配置不相关的试试google之：在/etc/wgetrc 中添加：https_proxy = ip:端口http_proxy = ip:端口proxy_user = 用户名proxy_passwd = 密码# If you do not want to use proxy at all, s

2012-04-12 10:06:43 487

原创 hadoop与eclipse

1）运行一个新项目要先run on hadoop在合并hadoop的文件为一个时，一直不出结果，调试时在查看listStutus出现：org.eclipse.debug.core.DebugException: com.sun.jdi.ClassNotLoadedException: Type has not been loaded occurred while retr

2012-04-12 10:04:09 2914

原创 hadoop管理细节

1）运行hadoop程序后怎么也不动单独杀死stop-mapred.shstart-mapred.sh ok2）伪分布式下转到分布式下时，不用hadoop namenode -format。只需stop-all.sh ,然后单独启动start-dfs.sh.后运行 hadoop dfsadmin -safemode leave最后hadoopp balancer

2012-04-12 09:51:31 445

原创 hadoop streaming 细节

1）streaming combiner 不一定非是java程序2）combiner 与-numReduceTasks 1有关mjiang@venus ~/java/eclipse/target-hadoop/Streaming-jar $ hadoop jar ~/hadoop-1.0.0/contrib/streaming/hadoop-streaming-1.0.0.jar

2012-04-12 09:44:26 1556

SdfTextInputFormat.java

空空如也