2019年11月_二十六画生的博客

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 IDEA 报错：找不到或无法加载主类

运行Java类时报错：找不到或无法加载主类.....解决方法：1 关闭当前项目2 删除本项目的.idea文件夹3 重新打开本项目即可

2019-11-27 20:14:52 6692 10

原创 vim 查找替换用法

查找1 vim a1.txt （含有字符串"data"）2 点击/，输入关键字,3 点击enter或者esc4 点击n是查找下一个，点击N是查找上一个，页面会显示成"?data":set ignorecase ,忽略大小写,输入/DATA能查到data:set noignorecase,大小写敏感，不忽略大小写，输入/DATA不能查到data替换:[rang...

2019-11-25 18:45:02 803

原创 Hive case when 用法

SELECTpar,case when coalesce(keya,'')<>'' then keya --then后面切勿带逗号，不然报错when coalesce(par,'')<> '' and par like '%keya=%' and coalesce(str_to_map(par, ',', '=')['keya'],'')<>'' t...

2019-11-25 16:02:53 4687

原创 Hive 字符串转换为Map，str_to_map用法用到concat

字符串转为mapstr_to_map(text[, delimiter1, delimiter2])使用两个分隔符将文本拆分为键值对。 Delimiter1将文本分成K-V对，Delimiter2分割每个K-V对。对于delimiter1默认分隔符是','，对于delimiter2默认分隔符是'='。select str_to_map('aaa:11&bbb:22', '&amp...

2019-11-25 11:55:55 11214

原创 Hive 正则表达式判断字符串是否是数字（整数）

正确的是：SELECT '123456' rlike '^\\d+$';--true，前面需要是两个\\，后面的$必须要带错误的是：SELECT '1234sdc' regexp '^[0-9]+' ; --true---------------------------------------------------------SELECT '1234sdc' regex...

2019-11-25 11:51:08 26440

原创 Hive left semi join ,select 和 where中不能出现右表字段/不会生成笛卡尔积

1 left semi join的时间比in的时间短，比in高效2 left semi join时select中不能出现右表的字段，不然报错3left semi join 时on中出现左表字段的条件，正确；on中出现右表字段的条件，正确;4left semi join 时where中出现左表字段，正确；where中出现右表字段，报错5Hive 2.0.0-SNAP...

2019-11-24 18:21:57 1672

原创 Hive left out jion ,join 多个表，改变顺序，结果不变

aleft out jionb on a.id = b.idjoibc on a.id=c.id与ajoibc on a.id=c.idleft out jionb on a.id=b.id这两种SQL的执行结果相同。

2019-11-21 21:47:32 2386

原创 Hive查看配置

hive> set hive.exec.max.dynamic.partitions.pernode;hive.exec.max.dynamic.partitions.pernode=100000

2019-11-21 21:42:22 1581

原创 Hive 动态分区 INSERT OVERWRIT

DML: 会按字段顺序插入，select出的前面的字段会放入非分区字段中，后面的几个字段则会写到分区字段中。use bdm;set mapred.output.compress=true;set hive.exec.compress.output=true;set mapred.output.compression.codec=com.hadoop.compression.lzo.Lz...

2019-11-21 21:38:26 12372

原创 Distcp 复制多个源路径

两种方法：把源路径依次写在命令中把源路径写到文件中，上传到hdfs，使用 distcp -f ns1/source.txt dest 则能复制。----------------------------------把ns1/abc/sdk/2019-01-01ns1/abc/sdk/2019-01-02ns1/abc/sdk/2019-01-03的数据拷贝到：n...

2019-11-19 12:09:05 1191

原创 Hive误删除后，如何恢复数据

原始数据:dfs -ls ns1/abc/sdk；...................ns1/abc/sdk/2019-01-01........ns1/abc/sdk/2019-01-02........ns1/abc/sdk/2019-01-03...........1 误删除：dfs -rm -r ns1/abc/sdk ，执行后，有提示 ns1/abc/sdk...

2019-11-19 12:00:04 3558

原创 Hive移动数据，去除多余路径

想要的格式是：ns1/abc/sdk/2019-01-01ns1/abc/sdk/2019-01-02但是现在却是：ns1/abc/sdk/def/2019-01-01ns1/abc/sdk/def/2019-01-02如何把“def”去掉呢？命令：dfs -mvns1/abc/sdk/def/*ns1/abc/sdk/即可。后面的【*】一定要带！！...

2019-11-19 11:55:12 362

转载 Hadoop Streaming 和Hadoop Pipes的区别

Hadoop Streaming是Hadoop为方便非Java用户编写MapReduce程序而设计的工具包，它允许用户将任何可执行文件或脚本作为Mappper/Reducer，可以大大提高程序员的开发效率。要求用户编写的Mapper/Reducer从标准输入中读取数据，并将结果写入到标准数据中，类似于Linux中的管道数据。Hadoop Pipes是Hadoop为方便C/C++用户编写MapR...

2019-11-16 18:43:40 317

原创往Hive表中写数据的方式，从Hive表中获取数据的方式

往Hive表中写数据的方式1 load data local inpath(从linux本地，复制，原来的存在) /load data inpath(从hdfs，移动，原来的文件已不存在)2 insert overwrite...select3 create table ... as select....4 from table1 insert ....select ...wh...

2019-11-14 20:37:07 2101

原创 hdfs数据块副本放置策略--1个在本机架的本节点，1个在本机架的另一个节点，1个在另一个机架的节点上

在大多数情况下，副本系数是3，HDFS的存放策略是将一个副本存放在本机架的本节点上，一个副本放在同一机架的另一个节点上，最后一个副本放在不同机架的节点上。这种策略减少了机架间的数据传输，这就提高了写操作的效率。机架的错误远远比节点的错误少，所以这个策略不会影响到数据的可靠性和可用性。于此同时，因为数据块只放在两个（不是三个）不同的机架上，所以此策略减少了读取数据时需要的网络传输总带宽。在这种策略下...

2019-11-14 16:54:34 1410 1

原创 MapReduce中使用Combiner--实例

在MapReduce中，当map生成的数据过大时，带宽就成了瓶颈，怎样精简压缩传给Reduce的数据，有不影响最终的结果呢。有一种方法就是使用Combiner，Combiner号称Map本地的Reduce，Reduce最终的输入，是Combiner的输出。使用combiner后： Reduce shuffle bytes、Reduce input records已相应减...

2019-11-14 11:11:34 717

原创 MapReduce在Map端按key排序，自定义排序方法Comparator

默认情况下，Map端会对map的输出结果按照key升序排列，同时也可以自定义排序方法。import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import org.slf4j.Logger;import org...

2019-11-13 18:25:41 1714

原创 Java，异常在方法内捕获处理后，后续方法依然能正常运行

运行时异常： public int divideInt(int a, int b) { int c; try { c = a / b; } catch (RuntimeException e) { System.out.println("发生RuntimeException异常"); ...

2019-11-06 19:08:01 908

原创 Hive 宏命令

hive> create temporary macro chufa (x int) x/2 ;OKTime taken: 0.048 secondshive> select chufa(6);OK3.0Time taken: 0.107 seconds, Fetched: 1 row(s)hive>Hive v2.0

2019-11-01 15:38:00 509

split_csv.sh

v6.csv有200多万行，excel的一个sheet最多显示104万行左右，显示不全，那么如何切分呢？亲测可用

2020-03-21

htmlunit-2.31.jar

htmlunit-2.31，亲测可用！能很好的完成抓取需求，能够模拟输入、点击按钮、解析结果

2018-06-10

mhd raw metaimage java读取类

亲测可用，mhd raw metaimage java读取类。mhd raw metaimage java读取类。mhd raw metaimage java读取类。

2017-10-18

quartz定时任务

不用集成Spring，代码简洁，亲测可用

2017-05-20

Struts2登录实例--亲测可用

Struts2登录实例--亲测可用，拦截器，Action，值栈......都用到了

2017-05-17

joda-time-2.3.jar

DateTime类型，方便使用

2016-11-17

commons-lang-2.5.jar

解决..java.lang.NoClassDefFoundError: org/apache/commons/lang/StringUtils问题

2016-07-08

commons-configuration-1.6.jar

解决..java.lang.NoClassDefFoundError: org/apache/commons/configuration/Configuration, 亲测可用

2016-07-08

android通过servlet与服务器验证用户信息

成功返回success,失败返回failed 1注意manifext.xml的权限 2 servlet project的类一定要extends httpservlet 3 servlet project中,com是包名，所以Tomcat是...classes/com/xxx.class 4 192.168.0.107是电脑的IP，需要手机电脑连接的是同一个wifi，电脑的防火墙一定要关闭

2016-03-26

全国省市县区域名称

省市县区域名称,例如： ................. 240: 云南省:昆明市 240864: 云南省昆明市东川区 240865: 云南省昆明市五华区 240866: 云南省昆明市呈贡县 240867: 云南省昆明市安宁市 ............

2015-11-17

拼图游戏C语言

拼图游戏开发，使用语言为C语言类，游戏开发，

2013-05-24

android布局中用到dimension，这样的作用是什么？好处是？

2015-12-26

TA创建的收藏夹 TA关注的收藏夹

TA关注的人