BigData
文章平均质量分 53
Hadoop/Hive/Spark
流风雨情
空杯心怀,stay hungry stay foolish
展开
-
开启Hadoop/Yarn的日志监控功能
配置 yarn-site.xml<!-- Site specific YARN configuration properties --><configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapredu...原创 2020-03-09 12:59:38 · 1069 阅读 · 0 评论 -
Hadoop WARN org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor: Exi
/Users/liuzhiwei/app/hadoop/logs> code yarn-liuzhiwei-nodemanager-lzw-mac.lan.log2020-03-09 00:22:48,081 WARN org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor: Exit code from co...原创 2020-03-09 11:52:17 · 2180 阅读 · 0 评论 -
hadoop WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform...
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable解决方案是在文件hadoop-env.sh中增加:export HADOOP_OPTS="-Djava.library.path=${H...原创 2020-03-09 11:13:42 · 421 阅读 · 1 评论 -
kafka命令
Kafka常用命令# 启动zookeeper nohup bin/zookeeper-server-start.sh config/zookeeper.properties.&# 启动servernohup bin/kafka-server-start.sh sonfig/server.properties&# 查看topicbin/kafka-topics.sh-li...原创 2020-02-06 23:25:32 · 134 阅读 · 0 评论 -
flink 快速创建项目 bash
在终端下 执行 然后idea 导入curl https://flink.apache.org/q/quickstart.sh | bash原创 2020-02-06 23:08:38 · 222 阅读 · 0 评论 -
Hadoop3.0新特性
端口的变化Hadoop3.0中namenode的默认端口配置发生变化:从50070改为9870Resource Manager: http://localhost:9870JobTracker: http://localhost:8088Specific Node Information: http://localhost:8042...原创 2020-02-01 23:08:51 · 185 阅读 · 0 评论 -
Hadoop中的jobhistory配置与启动停止
Hadoop中的jobhistory配置与启动停止jobhistory配置在yarn-site.xml中添加<!-- 开启日志聚合 --><property> <name>yarn.log-aggregation-enable</name> <value>true</value></property&g...原创 2020-02-01 20:54:52 · 1182 阅读 · 0 评论 -
conda使用
更新pythonconda update python 更新anacondaconda update anaconda查看已经安装的packagesconda list查看某个指定环境的已安装包conda list -n base查找package信息conda search numpy安装packageconda install -n...原创 2020-01-02 16:32:28 · 193 阅读 · 0 评论 -
org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot delete /user/admin/grep-temp-610649
org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot delete /user/admin/grep-temp-610649987. Name node is in safe mode.原因是namenode处在安全模式下 不能删除执行:hdfs dfsadmin -safemode leavehadoop默...原创 2020-01-01 16:43:33 · 522 阅读 · 0 评论 -
巨坑:hadoop3.0 slaves改为works
adoop3.0以后slaves更名为workers同时还有端口号的修改原创 2020-01-01 16:03:30 · 1975 阅读 · 1 评论 -
错误: 找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster
yarn执行MapReduce任务时,找不到主类导致的[2019-12-31 20:02:59.464]Container exited with a non-zero exit code 1. Error file: prelaunch.err. Last 4096 bytes of prelaunch.err : Last 4096 bytes of stderr : 错误: 找不到或无...原创 2019-12-31 20:27:18 · 8874 阅读 · 6 评论 -
安装hive的坑
Hive原则上可以安装在集群上的任何一台机器上面,但是考虑到 master节点的负荷比较大(安装在Master节点。Hive的HQL最终的执行总是会转换为M/D任务的,那么自然要在JobTracker上执行,通过JobTracker交给TaskTracker执行。)我们选择一台机器性能较好的datanode来安装hive。在我们的集群中选择slave003来安装hive。另外,在我们的安装中采用 ...原创 2018-04-10 11:48:30 · 741 阅读 · 0 评论 -
漫谈千亿级数据优化实践:数据倾斜
0x00 前言数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。迈的过去,将会海阔天空!迈不过去,就要做好准备:很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。郑重声明:话题比较大,技术要求也比较高,笔者尽最大的能力来写出自己的理解,写的不对和不好的地方大家一起交流。有些例子不是特别转载 2018-03-21 23:09:21 · 244 阅读 · 0 评论 -
控制Hive中Map和reduce的数量
一、控制Hive中Map和reduce的数量Hive中的sql查询会生成执行计划,执行计划以MapReduce的方式执行,那么结合数据和集群的大小,map和reduce的数量就会影响到sql执行的效率。除了要控制Hive生成的Job的数量,也要控制map和reduce的数量。1、map的数量,通常情况下和split的大小有关系,之前写的一篇blog“map和reduce的数量是如何定义...转载 2018-03-21 23:04:41 · 1602 阅读 · 0 评论 -
Hive技巧-选出某些列其余所有的列
HIVE中select除了某些字段之外的剩余所有字段这是HIVE中查询语句的一个小技巧,一个表字段太多,我们想要除个别字段外的剩余所有字段,全部列出来看起来难受,实际上hive语句可以解决这个问题。Hive 0.13.0之后,select列表支持正则表达式了insert overwrite table tb2 partition(dt=xx, hr=xx) select * from ...原创 2018-03-06 19:10:18 · 9663 阅读 · 4 评论 -
hive常用命令
1.建表 create table if not exists sdm_risk_flow(ID string, STATES string, ENABLED string, EVENT_ID string) partitioned by (dt string) row format delimited fields terminated by “\t ” STORED AS ORC⚠️...原创 2018-03-06 20:05:07 · 204 阅读 · 0 评论 -
学习使用superset-大数据报表分析平台
官网的介绍: Apache Superset (incubating) is a modern, enterprise-ready business intelligence web application 这里是官方介绍文档:http://superset.apache.org/看了这么多,结合自己在工作中使用的体会 superset在ETL中数据可视化环节,是一个自助式分析工具,主要...原创 2018-02-08 18:36:25 · 3984 阅读 · 0 评论 -
为什么是hive
Hive最适合于数据仓库应用程序,使用该应用程序进行相关的静态数据分析,不需要快速响应给出结果,而且数据本身不会频繁变化。Hive不是一个完整的数据库。Hadoop以及HDFS的设计本身约束和局限性地限制了Hive所胜任的工作。其中最大的限制就是Hive不支持记录级别更新、插入、或者删除操作。但是用户可以通过查询生成新表或者将查询结果导入文件中。同时,因为Hadoop是一个面向批处理的系统,而...转载 2018-03-08 14:08:26 · 413 阅读 · 0 评论 -
使用hive过程中遇到的小问题
类型转换 cast(t.delay_days_v2 AS int) SELECT cast(t.delay_days_v2 AS int) AS delay_days_v2, t.product_type, count(DISTINCT t.order_id) AS count_order_id, sum(t.principal -t.repai...原创 2018-03-08 22:07:54 · 560 阅读 · 0 评论 -
hive脚本的执行方式大致有三种
hive脚本的执行方式大致有三种: 参考hive的用法:usage: hive -d,--define <key=value> Variable subsitution to apply to hive commands. e.g. -d A=B or --define A=B ...原创 2018-03-02 11:54:40 · 9137 阅读 · 0 评论 -
hive sql
(SELECT u.id AS collector_id, u.name AS collector_name, t.name AS area_name FROM ods_collection.fdm_col_admin_user AS u LEFT JOIN (SELECT admin_user_id, mi...原创 2018-03-19 15:52:09 · 221 阅读 · 0 评论 -
hive数据倾斜问题
关于数据倾斜问题的思考(本人小白,不是什么大牛,有什么不对的地方欢迎指正) 背景: 数据倾斜是大数据领域绕经常遇到的问题,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎,这也是大数据处理的一个隐形的bug。最近在用Hadoop跑批的时候经常遇到,一条hivesql要跑好久才能跑完。相信大部分做数据的童鞋们都会遇到数据倾斜,数据倾斜会发生在...原创 2018-03-20 16:58:45 · 436 阅读 · 0 评论 -
hive子查询sql效率优化
今天写了个sql跑了好久,老大过来一看指点下,多用子查询,多用where,然后在join, 提高十多倍,神奇了。想了想,还是老大经验丰富。如果先join,就全表扫描,然后最后where最后筛选,比较耗时。 如果用子查询,就可以利用where过滤不相关的字段,不但增加了map 数量,还减少了数据量。 以下是我的sql 对比:SELECT from_unixtime(cast(a.t...原创 2018-03-21 19:27:12 · 7989 阅读 · 0 评论 -
Redis+MongoDB+Memcached
Redis原创 2017-07-31 11:02:07 · 306 阅读 · 0 评论