![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
叨逼叨
飘茗
这个作者很懒,什么都没留下…
展开
-
老师的话,有关公司的资源
进本地的setting.xml中配置source,局部不对外开放 公司内部的maven库本地.m2下载资源如果没有本地的setting.xml配置的source公司内部的maven库远端的maven库 阿里hadoop源码位置/home/zjq/.m2/repository/org/apache/hadoop/hadoop-core/1.2.1mvn eclipse:eclipse 自...原创 2014-10-23 19:17:51 · 69 阅读 · 0 评论 -
有关JSoup
java-jsoup解析html页面的内容 http://blog.csdn.net/zzq900503/article/details/10071307 java-httpclient通过title实现从baidu爬取相关网页链接 http://blog.csdn.net/zzq900503/article/details/10006751 有关失效...原创 2014-11-27 16:12:20 · 89 阅读 · 0 评论 -
1127工作
做了有关网页内容的匹配工作: 有几种方法: 1、最土的 indexof,substring,这种上学时的小打小闹明显不适合工作中使用,只解析了十几个页面就字符串下标越界了,有时只处理了3个就越界了。。所以,把整个页面传过去解析的方法明显不适合。。换一种爬取页面的方法 2、正则匹配。 St...原创 2014-11-27 10:32:51 · 95 阅读 · 0 评论 -
1126工作
1、如在jar包中调用,需要在命令中添加路径,然后再把东西传上去HADOOP_CLASSPATH="/usrb/hive/*:/usrb/hiveb/*:/usrb/hbase/*:/usrb/hbaseb/*:b/jsoup-1.7.3.jar" 2、执行普通的java jar包java -jar xxx.jar注意添加main方法,否则no main manifest...原创 2014-11-26 18:09:41 · 102 阅读 · 0 评论 -
1121工作总结
编了在java中调用linux的程序 若要从文件读参数:cat 1.txt | ./ictcrawler -c 1 -t 1 -n 3 >logg若要传参数:echo "abc" | ./ict -c 1 -t 1 -n 3 >logg 但由于 有“|”的存在,java是不支持管程的,所以runtime不可以用...原创 2014-11-21 18:25:46 · 76 阅读 · 0 评论 -
1120工作总结
1.Java调用shell Java语言以其跨平台性和简易性而著称,在Java里面的lang包里(java.lang.Runtime)提供了一个允许Java程序与该程序所运行的环境交互的接口,这就是Runtime类,在Runtime类里提供了获取当前运行环境的接口。其中的exec函数返回一个执行shell命令的子进程。exec函数的具体实现形式有以下几种:public Process exec...原创 2014-11-20 17:57:03 · 69 阅读 · 0 评论 -
工作总结1117
今天工作还蛮顺利的,应该都搞定了,只是集群貌似任务过多跑不起来,明天早点来运行吧。 总结一下,转码方法。。 GB2312 public static String gb2312ToWord(String str) throws Exception { String result = ""; byte[] bytes = new byte[str...原创 2014-11-17 17:55:08 · 83 阅读 · 0 评论 -
1114工作总结
昨天因为数据格式 错误总结: 1、 <!--StartFragment -->Exception in thread "main" java.lang.StringIndexOutOfBoundsException: String index out of range: -1 at java.lang.String.substrin...原创 2014-11-14 18:36:10 · 85 阅读 · 0 评论 -
1113工作总结
前辈建议我将执行命令放入shell脚本中,这样就不至于看着一堆mapreduce心烦。好主意!于是#!/bin/bashhadoop jar sel.jar org.day1111.Main /user/hive/warehouse/clickwise.db/nstat/dt=20141011/dp=nstat/ /user/clickwise/rainbow/shell>/ho...原创 2014-11-13 10:40:30 · 77 阅读 · 0 评论 -
1112工作总结
本想已经把map reducer编好了,可却没成想今天确实怂了一路。原因是没有彻底搞懂各个字段····而且也没人告我hive中数据的字段长度和hdfs的字段长度是不同的,而且我的程序时按照昨天在hive表中数的长度计量的,而且分隔符是“/001”,不是“/t”·····所以结果一直为空。。囧 后来慌慌的问前辈为什么只有uid后面跟奇怪的符号··点开reducer才发现是传个空,幸...原创 2014-11-12 17:47:10 · 77 阅读 · 0 评论 -
1111工作总结
今天开始第一天上班,没有想象中那么可怕的~可能最重要的或许是表现的比较乖吧。。同事也很热情。 好吧,小结一下 1 ssh远程登陆时中文乱码的解决办法 vi /etc/sysconfig/i18n ...原创 2014-11-11 18:40:55 · 83 阅读 · 0 评论 -
1204工作
hadoop reducer回滚原因分析 这个就要看你出现回滚是在哪个级别的reducer了。当map执行成功之后,hadoop会启动reducer对应到整个job,会有reduce阶段,这个如果失败了肯定不可能成功的吧。然后如果你设置了跑10个reduce,那么hadoop会把map的输出结果划分为10份,对应由10个reduce task来处理。一般来说肯定也是要10个task都成...原创 2014-12-05 13:30:02 · 96 阅读 · 0 评论