sunrising_hill-CSDN博客

原创 Hive 分区归档

第一次使用分区归档，解决分区下小文件过多的问题：使用步骤：1 执行：set hive.archive.enabled=true;2 执行：ALTER TABLE test.users_part ARCHIVE PARTITION(ds='20200401');执行第二条SQL时报错：SQL CLI中的报错信息为：hive (test)> ALTER TABLE test.users_part ARCHIVE PARTITION(ds='20200401');interme.

2020-05-13 19:04:36 1008

原创 Hadoop HDFS升级HA，Hive旧的库表元数据需同步更新

一、配置HDFS HA简介：任意时刻只有一个NameNode处于Active状态，为集群操作提供服务。其他NameNode全部处于Standby状态，他们维护足够的状态信息，以便在Active Failover时，快速提供服务切换。为了快速切换NameNode，Standby NameNode需要实时更新DataNode的Block信息，因此，DataNode上会配置所有的Nam...

2020-04-02 01:44:38 1071 1

原创 Flink HiveCatalog

Hive Metastore作为一个元数据管理的标准在Hadoop生态系统中已经成为公认的事实，因此Flink也采用HiveCatalog作为表元数据持久化的介质。对于同时部署了Hive和Flink的公司来说，可以方便管理元数据，而对于只部署了Flink的公司来说，HiveCatalog也是Flink唯一支持的元数据持久化的介质。不将元数据持久化的时候，开发过程中的每个地方都需要使用DDL重新将K...

2020-03-20 13:51:13 3186

原创 Spark On Yarn 部署（不带权限功能）注意替换域名和网址

1、在hadoop安装目录下找到yarn-site.xml配置文件，添加如下配置： <property> <name>yarn.nodemanager.pmem-check-enabled</name> <value>false</value> </property> ...

2020-02-29 00:36:01 441

原创 kafka-eagle安装

1、首先去官网下载eaglehttp://download.kafka-eagle.org/2、上传至服务器，解压到安装目录，我使用的是1.4.4版本tar -xzf kafka-eagle-bin-1.4.4.tar.gz -C /apps/cd /appsmv kafka-eagle-bin-1.4.4 eagle3、修改/etc/bashrc，添加下面环境变量ex...

2020-02-24 18:42:46 1581 3

原创 Python MATLAB

Python中要想调用MATLAB的功能，需要安装matlab.engine，此工具在matlab的安装目录下，比如：C:\Users\admin>cd C:\apps\MATLAB\R2019a\extern\engines\python C:\apps\MATLAB\R2019a\extern\engines\python>可以通过执行setup.py脚本进行安装：...

2019-07-24 16:21:04 329

原创 Sqoop Hive常见异常

1、出现下面报错信息：Caused by: java.lang.ClassNotFoundException: org.apache.logging.log4j.spi.LoggerContextFactory at java.net.URLClassLoader.findClass(URLClassLoader.java:382) at java.lang....

2019-07-17 11:05:37 981 1

原创 Sqoop增量导入数据

# Sqoop提供了增量import数据的方法，可以只从RDBMS中获取上次import操作后的新增数据。Argument Description--check-column (col) Specifies the column to be examined when determining which rows to import. (the column should not b...

2019-07-16 17:32:14 549

原创 Hadoop Mapreduce ClassNotFoundException: javax.activation.DataSource

运行hadoop MapReduce报如下错误：[2019-07-16 11:39:24.204]Container exited with a non-zero exit code 1. Error file: prelaunch.err.Last 4096 bytes of prelaunch.err :Last 4096 bytes of stderr :WARNING: An ...

2019-07-16 11:54:30 760

原创 Sqoop --password-file 设置密码

使用这种方式指定密码时，文件既可以放在本地，也可以放在集群上：使用echo passwd > ~/.passwd，将密码写入文件，chmod 400 ~/.passwd将密码文件设置为当前用户只读，防止他人知悉该密码。sqoop-list-databases --connect jdbc:mysql://m.mysql.com:3306 --username root --p...

2019-07-15 18:37:41 1400

原创 Sqoop1.4.7 java.lang.ClassNotFoundException: org.apache.commons.lang.StringUtils

Warning: /apps/sqoop/../hcatalog does not exist! HCatalog jobs will fail.Please set $HCAT_HOME to the root of your HCatalog installation.Warning: /apps/sqoop/../accumulo does not exist! Accumulo imp...

2019-07-15 17:35:09 1768

原创 Windows搭建spark python开发环境

首先安装jdk、scala、hadoop、spark和python1、python是从官网下载exe安装文件，按照步骤进行安装即可。2、jdk从oracle官网下载安装文件，安装即可。3、scala、hadoop和spark则从官网下载压缩文件，解压后放到指定的安装目录即可，还需要下载hadoop在windows下使用到的winutils.exe，放到HADOOP_HOME/bin目录...

2019-06-18 10:51:16 522

原创 Windows 10 安装MySQL 8.0.15

1、官网下载App，https://dev.mysql.com/downloads/file/?id=4849002、解压到安装目录：C:\apps\mysql-8.0.15-winx64。3、配置环境变量： MYSQL_HOME=C:\apps\mysql-8.0.15-winx64 PATH 添加：%MYSQL_HOME%\bin 4、进入安装目录，手动创建m...

2019-03-08 19:54:37 345

原创 IDEA 创建maven项目报错：[FATAL_ERROR] Cannot start Maven: JAVA_HOME environment variable not defined

在Linux系统上安装idea开发项目，新建maven项目时发生异常：[FATAL_ERROR] Cannot start Maven: JAVA_HOME environment variable not defined 第一步：找到maven的安装目录，使用vi打开mvn文件，添加“export JAVA_HOME=/apps/jdk”，重新尝试新建项目，仍然报错...

2018-12-21 12:04:47 2196

原创 spark-sql-kafka streaming 首个batch日志太多导致异常退出

最近遇到了spark structured streaming从kafka读取数据时，首个批处理查询读取的日志太多导致程序崩溃，查找资料未果，只能从连接kafka的jar包源码入手，查看是否可以限制单个批量读取的最大日志数，最终通过修改源码重新编译实现该功能。spark-sql-kafka在实现流式处理数据的时候，每次先读取前一个batch的topic-partition-offset，然后通...

2018-11-27 18:20:57 917 2

原创 ElasticSearch安装

1、将从官网下载的ES压缩包解压到你的程序目录，并在“我的电脑、属性、环境变量”中添加JAVA_HOME变量，ES_HOME变量。必须得是系统环境变量，不能是用户环境变量。2、在环境变量的Path中添加“%JAVA_HOME%/bin”和“%ES_HOME%/bin”3、打开命令行，使用"elasticsearch-service.bat install"将es安装为系统服务。4、执行...

2018-11-04 15:22:43 186 1

原创 Hive MetaStore服务增大内存

找到hive的安装目录，进入/hive/bin/ext/,编辑 metastore.sh文件，增加以下内容：export HIVE_METASTORE_HADOOP_OPTS="-Xms4096m -Xmx4096m"添加后文件内容如下：THISSERVICE=metastoreexport SERVICE_LIST="${SERVICE_LIST}${THISSERVICE} "...

2018-10-16 17:34:49 2907

原创 flume hdfs文件输出普通文本正确行数

本次调试flume读取kafka数据输出至hdfs总是内容不对，使用fs -cat查看行数不对，经过测试后发现需要如下配置：agent.sources = midlogagent.channels = hdfsChannelagent.sinks = hdfsSink# the source of hdfsagent.sources.midlog.type = org.apache....

2018-09-21 13:48:40 799

原创 hbase 升级2.1.0

本次hbase从1.2.6升级至2.1.0遇到了两个问题，一个是htrace.jar报错，需要将旧的htrace-core-3.1.0-incubating.jar包上传至hbase-2.1.0的lib目录，另一个问题是jline版本问题，也需要下载高版本jline上传至hbase-2.1.0的lib目录，下载地址：cd /apps/hbase-2.1.0/libwget http:/...

2018-08-15 13:53:03 1997

原创 spark-sql 集成 hive

Hive目录下的hive-site.xml添加： <property> <name>hive.metastore.uris</name> <value>thrift://hm.clusterdomain.com:9083</value> <description>Thrift URI for the remote me...

2018-03-07 20:25:10 440

原创 Spark Rdd map和mapPartitions效率问题

当map和mapPartitions参数中的方法并没有额外开销时，比如创建数据库连接，申请其他资源时，使用map比mapPartitions的效率要高，但如果有比较耗时但又可以在整个Partition中的元素中复用的对象或操作时，那么使用mapPartitions并且只创建一次可复用资源的效率更高。map中只是简单的通过Gson将字符串转换为HashMap对象： // 16 9 6 ...

2018-02-24 10:29:04 1429

原创 Scala 访问 Hbase

package hbaseimport org.apache.hadoop.conf.Configurationimport org.apache.hadoop.hbase.{HBaseConfiguration, TableName}import org.apache.hadoop.hbase.client.{Connection, ConnectionFactory}/** *...

2018-02-23 17:54:39 727

原创 Java并发编程笔记1 并发编程的挑战

上下文切换的问题死锁受限的硬件资源受限的软件资源1、如果为单核处理器，或者多线程上下文切换的开销大于带来的执行效率时，就不要使用多线程，。2、...

2018-02-10 00:13:59 274

原创 Hive集成HBase查询数据表

Hive在HBase的数据表上建立外联表时，尽量将HBase表中可以最快缩小范围的字段作为RowKey的起始字符串，经过测试，这样在查询hive时，如果指定了该字段作为where条件，可以大幅缩短SQL的执行时间。

2018-01-19 18:36:00 472

原创 Spark Hbase 集成

安装Spark和Hbase，将Hbase的lib目录下的jar包复制到Spark目录的jars目录下：cp /apps/hbase/lib/metrics-core-2.2.0.jar /apps/spark/jarscp /apps/hbase/lib/hbase*.jar /apps/spark/jars撰写代码，从hbase中读取数据，再通过RDD转换成Dat

2018-01-19 16:47:13 721

原创 JVM Exception in thread "main" java.lang.StackOverflowError

当你的程序报上面错误时，一般说明单个线程的栈大小不够了，不论是main线程还是其他子线程。可以调高线程栈大小来解决该问题。不过在调高之前应先检查你的程序是不是有无限递归方法之类的情况。在运行程序的参数里面加上：-Xss8m。代表将线程栈设置为8M，默认是1M。下面是我测试的不同栈大小对应的大概递归次数。public class TestJVMArgs { sta

2017-10-27 19:22:13 2976

原创 Kafka Server.properties

基础配置：broker.idBroker的ID，每个broker必须又有唯一的值。delete.topic.enableTopic是否删除过期日志的开关，默认关闭。Socket服务器配置：listenersSocket服务器监听的地址，如果没有设置，则监听java.net.InetAddress.getCanonicalHos

2017-10-09 16:26:41 1975

原创微信15字符破解

如果你是安卓手机，不小心给别人发了类似“15。。。。。。。。。。。。。。。”的消息，或者你手欠，给别人发了这个消息，恭喜你，中奖了，你再次打开该会话的时候就会卡死，这时候，你可以用如下办法解决：登录电脑微信，打开与该联系人的会话窗口，发送15条以上的其他消息，可以是“1”，主要就是让微信不要渲染刚才造成卡死的那条信息，这就解决了。你可以正常的继续跟好友聊天了，不过不

2017-09-25 18:37:53 864

原创 Spark 配置History

首先在spark-defaults.conf中添加线面两行：spark.eventLog.enabled truespark.eventLog.dir hdfs://master.domain.com:9000/log/sparkLogs在spark-env.sh中添加下面两行：export SPARK_HISTORY_OPTS="-Dspark....

2017-07-28 17:31:37 606

原创 Tomcat Manager

配置文件tomcat-user.xml修改：<tomcat-users xmlns="http://tomcat.apache.org/xml" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://tomcat.apach

2017-06-22 11:51:50 352

原创 xcode导入framework后不能import

如果你是手动将framework拖进xcode，或者使用“Link Binary With Libraries”导入磁盘上的framework，导入后发现无法编译，不能import导入的framework中的头文件，此时可以尝试将framework在磁盘上所在目录写入：“Build Settings---->Search Paths---->Framework Search P

2017-02-06 13:54:46 7561 2

原创 Hadoop通过路径和和链接访问HDFS

如果既想在Hadoop服务器本地可以通过绝对路径如"/user/hadoop"方式访问hdfs，也想通过"hdfs://localhost:9000/user/hadoop的方式访问hdfs，此时做需要配置core-site.xml： fs.defaultFS hdfs://master.domain.com:9000 上面的配置只能让你使用"hadoop fs -ls

2016-12-10 16:46:50 28110 1

原创 Spark：Eclipse手动安装scala开发插件

Scala的官方网站提供了开发Scala代码的IDE，但是很多人都有已经在使用的Eclipse，想要在现有Eclipse的基础上添加插件来进行开发。1、下载Eclipse的Scala插件。下载网址：http://scala-ide.org/download/current.html进去网址后，向下拉动网页，可以看到如图中红色线条选中的位置，点击下载手动安装的插件。

2016-12-01 19:06:35 5893

原创 Windows中CLOSE_WAIT、TIME_WAIT网络连接

Windows下写网络程序时遇到很多TIME_WAIT、CLOSE_WAIT的网络连接，可以通过调整注册表中的TCP参数来处理：C:\Users\user1>netstat -ano | findstr 110:80 TCP 192.168.1.110:80 192.168.1.7:33083 TIME_WAIT 0 TCP 1

2016-08-19 16:00:51 4528

转载 Linux增大SWAP空间

dd if=/dev/zero of=swapfile bs=1M count=1024最近服务器报警SWAP空间不够了，服务器没有未使用的硬盘，只能想其他办法增加SWAP空间大小，查找资料找到如下方法。[user@server~]$ free total used free shared buffers

2016-08-01 13:23:46 8417 5

原创影响Java线程数、Server连接数的几个系统参数

影响打开线程数，网络连接数的系统参数主要有一下几个vm.max_map_count = 65536kernel.pid_max = 65536kernel.threads-max = 65536echo 1000000 > /proc/sys/kernel/threads-maxecho 1000000 > /proc/sys/kernel/pid_maxech

2016-07-28 11:58:21 333

原创 Ubuntu Linux设置Open Files Limit和Max User Processes

修改/etc/security/limits.conf文件添加：* soft nofile 65535* hard nofile 65535* soft nproc 65535* hard

2016-07-27 16:50:14 7816

原创 Hadoop MapReduce ShuffleError: error in shuffle

Hadoop伪分布式模式运行时，运行一个Job报上面错误，原因是由于Hadoop的最大对内存过小，hadoop默认分配的最大堆内存大小为1000MB，有时候跑的job所需的内存可能比这个数值要大很多，这是修改运行是的最大大小并不是mapreduce.map.java.opts或者mapreduce.reduce.java.opts参数的值，他们是在分布式环境下的配置参数。此时我们需

2016-01-18 13:34:04 759

原创 hadoop修改hadoop.tmp.dir

hadoop.tmp.dir的目录默认指向的是：/tmp/hadoop-${USERNAME}这样会有个问题，系统重启时会自动删除/tmp目录下的文件，导致你之前对hadoop做的很多操作都被删除了，需要重新再来，比如你想hdfs导入的文件会都被删除。这是你需要修改 ${hadoop_home}/etc/hadoop/core-site.xml文件，添加一个名字为"hadoop.tmp

2016-01-16 09:56:39 8075

原创 Linux常用命令

查看操作系统版本：cat /etc/issue

2016-01-03 08:35:49 278

flink非官方jar.zip

空空如也