下面这些都是我在工作中总结出来的,希望对大家有帮助,如果有其他的问题或者解决方法可以留言给我。
我们知道hive的元数据是有mysql管理的,所以这是mysql的元数据的问题.下⾯面我们就修改⼀一下字符编码。
mysql -u cdh -p -h ip********
(1)修改表字段注解和表注解
alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;
alter table TABLE_PARAMS modifycolumn PARAM_VALUE varchar(4000) character set utf8;
(2)修改分区字段注解
alter table PARTITION_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8 ;
alter table PARTITION_KEYS modify column PKEY_COMMENT varchar(4000) character set utf8;
(3)修改索引注解
alter table INDEX_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;
(4)修改hive-site.xml配置⽂文件
<property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://IP:3306/hive?createDatabaseIfNotExist=true&useUnicode=true&characterEncoding =UTF-8</value><description>JDBC connect string for a JDBC metastore</description></property>
最近也有许多小伙伴问我关于面试的问题,面试应该如何去准备,这里我总结了写面试题,大方向可以根据这些去装备。我要强调一点,也是最关键的一点就是:基础很重要。
1、HashMap 和 Hashtable 区别
2、Java 垃圾回收机制和生命周期
3、怎么解决 Kafka 数据丢失的问题
4、zookeeper 是如何保证数据一致性的
5、hadoop 和 spark 在处理数据时,处理出现内存溢出的方法有哪些?
6、java 实现快速排序
7、设计微信群发红包数据库表结构(包含表名称、字段名称、类型)
8、如何选型:业务场景、性能要求、维护和扩展性、成本、开源活跃度
9、Spark如何调优
10、Flink和spark的通信框架有什么异同
11、Java的代理
12、Java的内存溢出和内存泄漏
13、hadoop 的组件有哪些?Yarn的调度器有哪些?
14、hadoop 的 shuffle 过程
15、简述Spark集群运行的几种模式
16、RDD 中的 reducebyKey 与 groupByKey 哪个性能高?
17、简述 HBase 的读写过程
18、在 2.5亿个整数中,找出不重复的整数,注意:内存不足以容纳 2.5亿个整数。
19、CDH 和 HDP 的区别
20、Java原子操作
21、Java封装、继承和多态
22、JVM 模型
23、Flume taildirSorce 重复读取数据解决方法
24、Flume 如何保证数据不丢
25、Java 类加载过程
26、Spark Task 运行原理
27、手写一个线程安全的单例
28、设计模式
29、impala 和 kudu 的适用场景,读写性能如何
30、Kafka ack原理