- 博客(36)
- 资源 (3)
- 收藏
- 关注
原创 Hive 优化-参数设置
参考链接:https://blog.csdn.net/WYpersist/article/details/79797075 https://blog.csdn.net/baidu_29843359/article/details/46967473 http://blog.sina.com.cn/s/blog_6ff05a2c010178qd.html map数的计算 https://bl...
2018-12-14 15:38:27 6418
原创 彻底删除Kafka中的topic
1、删除kafka存储目录(server.properties文件log.dirs配置,默认为"/tmp/kafka-logs")相关topic目录2、Kafka 删除topic的命令是: ./bin/kafka-topics --delete --zookeeper 【zookeeper server】 --topic 【topic name】 如果kafaka启动时
2016-01-26 11:29:08 68043 3
原创 Spark SQL 访问hive 出现异常:org.datanucleus.exceptions.NucleusDataStoreException
异常:org.datanucleus.exceptions.NucleusDataStoreException: Exception thrown obtaining schema column information from datastore出现问题原因: 1、hive-site.xml 中配置的是 <property> <name>...
2018-10-19 11:10:22 4318
原创 Hive grouping sets 的bug:ParseException line 7:22 missing ) at ',' near '<EOF>'
今天遇到了一个问题,当使用grouping sets 时,一直报错如下:ParseException line 7:22 missing ) at ',' near '<EOF>'line 7:31 extraneous input ')' expecting EOF near '<EOF>'sql为:SELECT tab1.a, tab1.b, ...
2018-06-06 18:57:16 10533
原创 python 使用matplotlib画图
#!/usr/bin/python# encoding=utf-8import sysimport matplotlib.pyplot as pltreload(sys)sys.setdefaultencoding('utf-8')x = [1, 2, 3]y = [5, 7, 4]x2 = [1, 2, 3]y2 = [10, 14, 12]x3 = [5, 6,
2018-01-19 11:14:56 556
原创 Scrapy遇到的坑
1、出现了403的错误,如下所示:DEBUG: Crawled (403) https://movie.douban.com/subject_search?search_text=28%E5%B2%81%E6%9C%AA%E6%88%90%E5%B9%B4> (referer: None)原因是代理被禁止访问,解决方法:在settings配置文件里修改不设置代理DOWNLO
2016-12-29 16:24:27 9223 3
原创 Mac 下的Eclipse因非正常关闭启动未响应的解决方法
由于电脑关机,导致Eclipse非正常关闭,之后启动Eclipse发现一直启动不起来,于是从网上找了一些方法如下:1、删除文件.snap到\.metadata\.plugins\org.eclipse.core.resources目录下删除*.snap的文件2、重命名org.eclipse.core.resources目录,等启动后再改回进入到\.metadata\.plu
2016-12-22 10:07:59 7509 1
原创 Shell 脚本,每隔100行插入一条记录,并且记录第一列包含行号,其他列不变
每隔100行插入一条记录,并且此条记录的第一列包含行号,其他列与第一行相同
2016-12-12 10:50:18 2957
原创 kafka命令(整理)
1、启动Kafka: bin/kafka-server-start.sh config/server.properties2、创建topic: bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 2 --partitions 24 --topic top
2016-10-20 15:29:11 1381
原创 Hive 的优化
1、group by 实现 distinct原始语句:select count(distinct ip) from (select ip as ip from comprehensive.f_client_boot_daily where year="2013" and month="10" union all select pub_ip as ip from
2016-08-24 14:26:10 540
原创 Hbase 命令:快照操作
Hbase 命令:快照操作1、产生快照: snapshot ‘tableName’, ‘snapshotName’2、列出所有快照: list_snapshots 3、删除快照: delete_snapshot ‘snapshotName’4、从指定快照生成新表: clone_snapshot ‘snapshotNam
2016-03-31 17:06:56 5410
转载 hbase压缩算法-Snappy算法安装
Compression就是在用CPU换IO吞吐量/磁盘空间,如果没有什么特殊原因推荐针对Column Family设置compression,下面主要有三种算法: GZIP, LZO, Snappy,作者推荐使用Snappy,因为它有较好的Encoding/Decoding速度和可以接受的压缩率。Comparison between compression algorithms
2016-03-30 11:01:31 3266
转载 Linux下ntpdate时间同步
Linux下ntpdate时间同步Ntp服务器安装配置RedHat服务器可以下载rpm安装包,然后执行# rpm -ivh ntp-4.2.0.a.20040617-4.x86_64.rpm时间同步方法同步命令# ntpdate ntp服务器域名或IP例:# ntpdate 210.72.145.44 //是中国国家授时中心的官方服务器。http://www.poo
2016-03-22 11:22:55 958
原创 SpringbootUnable to start EmbeddedWebApplicationContext due to missing EmbeddedServletContainerFact
本地Eclipse运行Spring boot程序的时候正常,打包放到服务器上之后运行出现了如下异常Exception in thread "main" org.springframework.context.ApplicationContextException: Unable to start embedded container; nested exception is org.sprin
2016-03-07 18:52:30 12825 2
原创 Hive命令之三:hive的数据导入导出
Hive 数据的导入导出:一 Hive数据导出 1、导出数据到本地文件系统: insert overwrite local directory '/software/data/data1' select * from call_info_history10000 limit 10;这种导出方式,数据中的列与列之间的分隔符是^A(ascii码是\00001)
2016-03-03 14:03:35 1127
原创 集群中通过外网8088端口访问不到
集群之间是通过内网互连的,host的映射文件也是内网的ip地址,现在想通过外网访问集群,发现8088端口以及其它的端口访问不到,解决的方法是用apache的反向代理。
2016-02-24 19:37:12 7588
原创 java.lang.NoSuchMethodError: com.google.common.collect.Sets.newConcurrentHashSet()异常解决思路
Spark集群下运行程序出现java.lang.NoSuchMethodError: com.google.common.collect.Sets.newConcurrentHashSet()Ljava/util/Set异常的解决思路
2016-02-18 19:35:51 41706 3
原创 Hive Shell 命令之二(表中数据的操作,出自Hive编程指南)
一、 交互模式:show tables; #查看所有表名show tables 'ad*' #查看以'ad'开头的表名set 命令 #设置变量与查看变量;set -v #查看所有的变量set hive.stats.atomic #查看hive.stats.atomic变量set hive.stats.atomic=false #设置hive.stats.atomic变量
2015-12-28 18:58:51 1860
原创 Hive Shell命令之一(数据库和表的操作)
//数据库的有关操作1、如果数据库不存在的话创建数据库,默认数据库default:create database if not exists test;2、查看hive中所包含的数据库:show databases;3、如果数据库非常多,可以用正则表达式匹配筛选出需要的数据库名。show databases like 't.*';4、创建数据库并指定数据库存
2015-12-22 19:45:30 4055
原创 Linux 下memcached的安装
memcached的安装 Memcached用到了libevent这个库用于Socket的处理,所以安装memecached之前,需要安装libevent。 第一步:到官网下载安装文件 http://sourceforge.net/projects/levent/files/libevent/libevent-2.0/libevent-2.0.22-stable.tar.gz/
2015-11-26 12:30:32 425
原创 Linux 下Nginx的安装
Nginx的安装 安装nginx前,我们要确保系统安装了g++、gcc、openssl-devel、pcre-devel、zlib-devel软件.第一步:如果上述软件没有安装,先安装它们: 安装gcc: yum install gcc gcc-c++ ncurses-devel perl 安装pcre开发包:yum install -y pcre-d
2015-11-26 12:29:01 504
原创 Linux 下Flume1.4.0的安装
Flume1.4.0的安装第一步:下载安装包apache-flume-1.4.0-bin.tar.gz, 下载地址:http://www.apache.org/dist/flume/stable/ 第二步:解压安装包: tar-zxvf apache-flume-1.4.0-bin.tar.gz 第三步:将解压后的文件夹重命名: m
2015-11-26 12:27:35 1132
原创 Linux下Redis3.0.5的安装
Redis3.0.5的安装第一步:到将要安装redis的目录下:cd /usr/local/redis 第二步:下载redis: wget http://download.redis.io/releases/redis-3.0.5.tar.gz 第三步:解压缩: tar xzf redis-3.0.5.tar.gz 第四步:安装C/C++的编译组件(非必须):
2015-11-26 11:51:05 4790
原创 Linux下Mysql5.5.28的安装
Mysql5.5.28的安装第一步:查看系统是否已经自带mysql数据库,如果有安装可以选择进行卸载:查看是否有mysql的命令:rpm -qa | grep mysql普通删除mysql命令:rpm -e mysql强力删除模式:rpm -e --nodeps mysql 第二步:通过命令查看yum上提供下载的mysql的版本信息:yum list | grep my
2015-11-26 11:46:48 420
原创 Linux 下Tomcat7.0.42的安装
Tomcat7.0.42的安装安装前提:系统必须已安装配置JDK6+,安装请参考:JDK1.7.0_75的安装第一步:下载tomcat7的tar.gz文件,并解压缩到/usr/local目录: tar -zxvf apache-tomcat-7.0.42.tar.gz -C /usr/local 第二步:启动tomcat: /usr/l
2015-11-26 11:43:08 547
原创 Linux 下JDK1.7.0_75的安装
JDK1.7.0_75的安装第一步: 首先下载对应系统版本的jdk:这里我下载的 jdk-7u75-linux-x64.tar.gz,下载地址为:http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html第二步:下载该jdk到本地,并上传到你的服务器的opt临时目录下。
2015-11-26 11:37:04 3952
原创 Linux 学习笔记一 :文件拆分和后台执行
一、文件拆分: 命令:split 例子: 1、以行数拆分:split -l 60 原始文件 拆分后文件名前缀 说明:以50行对文件进行拆分,最后一个文件的行数没有60行以实际行数进行分配,比如有一个名为 date.txt的文件,公有130行,进行拆分:
2015-09-14 22:59:43 695
原创 SCP 从服务器上传下载文件
近期项目中需要把windows上的一个脚本上传到linux的服务器上,于是上网搜了下方法,可以通过scp来做,代码如下:
2015-09-14 22:36:30 1921
原创 Java操作Hbase增删改查(附带复合条件查询以及分页查询)
最近项目中用到了Hbase,所以看了下Java操作Hbase的有关API,并根据项目中的需求写了下增删改查。闲话少说,先贴源码:package com.infobird.test1;import java.io.IOException;import java.util.ArrayList;import java.util.HashMap;import java.util.List;
2015-09-14 22:03:01 9519 11
原创 Java开发面试题二
今天面的一个创业公司,面试官非常Nice,技术大牛一个,可惜问我的问题我大多不会,又跪了,把面试题整理出来,大家讨论下吧1. 怎么把两个数组 int a[] = {1,5,9,3,6}; 和 int b[] = {2,7,4};合并成一个数组并排序。 int a[] = {1,5,9,3,6}; int b[] = {2,7,4}; int[] result = new
2015-03-11 20:22:54 470
转载 Java写的爬虫爬百度首页Code《转自零基础写Java知乎爬虫之先拿百度首页练练手》
package com.baidu.test;import java.io.BufferedReader;import java.io.InputStreamReader;import java.net.URL;import java.net.URLConnection;import java.util.regex.Matcher;import java.util.regex.Pattern;pu
2015-03-11 00:07:39 1200
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人