mcj1314bb-CSDN博客

原创 ambari 2.7.5 整合HDP 3.1.4-315或低版本HDP

写在前边在《Ambari2.7.5源码编译安装及遇到的问题解决有这一篇文章就够了》（https://blog.csdn.net/mcj1314bb/article/details/113174814）这篇博客中，完美帮助大家编译了ambari 2.7.5版本。但是ambari2.7.5版本对应使用的HDP3.1.5-315在官方无法下载，使得大家无比痛苦。但是这里带来了另一种解决方案，那就是 ambari 2.7.5 整合低一版本的HDP3.1.4-315。下面开始进行整合哈在《Ambari

2021-02-01 17:15:28 1761 4

原创 Ambari2.7.5源码编译安装及遇到的问题解决有这一篇文章就够了

本篇博客列举的所有命令行操作及问题大部分是真实遇到的，还有部分没有遇到，其他博主遇到了也总结到这个博客下，在此贴出前几位博主的链接，也都是大神，希望大家多多支持如操作过程中遇到什么疑问,或文章内容有什么不严谨的地方请在评论区留言指出,我会第一时间更正参考链接https://xuemengran.blog.csdn.net/article/details/108626421https://www.cnblogs.com/wang--lei/p/8257238.htmlhttps://www

2021-01-26 10:47:16 1835 9

转载史上最完整的人工智能书单大全，学习AI的请收藏好

想自学人工智能，到底看什么书？现在关于AI的图书成千上万，那些才是最好的？智能菌花了一周的时间，给大家挑选出42本最值得读的AI书籍，分为四类：简单科普类、深度科普类、技术学习类、机器人类和AI哲学类，希望对大家有帮助。...

2018-03-20 10:57:06 413

转载通过hue提交oozie定时任务

Oozie是什么？Oozie是一种Java Web应用程序，它运行在Java servlet容器——即Tomcat——中，并使用数据库来存储以下内容：工作流定义当前运行的工作流实例，包括实例的状态和变量Hue是什么？ Hue是一个可快速开发和调试Hadoop生态系统各种应用的一个基于浏览器的图形化用户接口。 Hue能干什么？ 1，访问HDFS和文件浏

2018-01-30 09:14:36 911

转载 python模块大全

pymatgen multidict yarl regex gvar tifffile jupyter scipy gensim pyodbc pyldap fiona aiohttp gpy scikit-learn simplejson sqlalchemycobra pyarrow tatsu orange

2018-01-25 13:38:55 7974

转载 MySql ibdata1文件太大如何缩小

MySql innodb如果是共享表空间，ibdata1文件越来越大，达到了30多个G，对一些没用的表进行清空：truncate table xxx;然后optimize table xxx; 没有效果因为对共享表空间不起作用。mysql ibdata1存放数据，索引等，是MYSQL的最主要的数据。如果不把数据分开存放的话，这个文件的大小很容易就上了G，甚至几十G。对于某些应用来说，并不是太合适。

2018-01-18 19:00:20 736

转载 ClouderaManager之CDH-LZO配置

CDH-LZO配置下载和CDH版本对应的hadoop-lzo版本如下：下载地址：http://archive.cloudera.com/gplextras5/parcels/需要下载如下三个文件：GPLEXTRAS-5.4.0-1.cdh5.4.0.p0.27-el6.parcelGPLEXTRAS-5.4.0-1.cdh5.4.0.p0.

2018-01-12 13:59:08 382

转载 HDFS的常用操作--hdfs下的文件操作常用命令总结

1、创建目录命令HDFS有一个默认的工作目录/user/$USER，其中$USER是用户的登录用户名。不过目录不会自动建立，需要mkdir建立它命令格式：hadoop fs -mkdir如：在user目录下创建chen目录hadoop fs -mkdir /user/chen注意：Hadoop的mkdir命令会自动创建父目录，类似于带-p的ＵＮＩＸ命

2018-01-12 10:12:15 1614

转载 hive 压缩全解读(hive表存储格式以及外部表直接加载压缩格式数据)；HADOOP存储数据压缩方案对比（LZO,gz，ORC）

数据做压缩和解压缩会增加CPU的开销，但可以最大程度的减少文件所需的磁盘空间和网络I/O的开销，所以最好对那些I/O密集型的作业使用数据压缩，cpu密集型，使用压缩反而会降低性能。而hive中间结果是map输出传给reduce，所以应该使用低cpu开销和高压缩效率，一般最好使用snappy。-----------------------------------------

2018-01-11 21:16:18 335

转载快速为CDH版本HADOOP安装配置Lzo和Snappy压缩

注：本文针对的是使用命令行安装和配置CDH Hadoop，如果你使用RPM或者ClouderaManager，基本可以忽略此文。Hadoop在计算和存储过程中，支持对文件进行压缩，可以使用hadoop checknative命令来查看：其中，像zlib、lz4、bzip2，会使用系统库，那么需要在Hadoop所在机器上先安装这些。Snappy和Lzo，需要单独安装配

2018-01-11 19:41:32 1357

转载修改Flume-NG的hdfs sink解析时间戳源码大幅提高写入性能

Flume-NG中的hdfs sink的路径名(对应参数"hdfs.path"，不允许为空)以及文件前缀(对应参数"hdfs.filePrefix")支持正则解析时间戳自动按时间创建目录及文件前缀。　　在实际使用中发现Flume内置的基于正则的解析方式非常耗时，有非常大的提升空间。如果你不需要配置按时间戳解析时间，那这篇文章对你用处不大，hdfs sink对应的解析时间戳的代码位于org.

2018-01-10 10:50:06 417

转载 flume-hdfs 按照时间关闭并新开文件

在flume中原有的sink的hdfs接口中只有根据写入多少秒存储关闭文档或者写入多少量存储关闭文档,饼不能根据实际需求来关闭文档,所以需要自己改写代码来满足我们的要求.例如我们需要他在每天到了0点以后关闭上一日的文档,并在写一个新的文档出来,首先我找到源码在flume的源码中一个单独的项目flume-hdfs-sink是针对hdfs的可以只接在这个项目里进行修改,然后打包好在

2018-01-04 15:39:29 936

转载模拟使用Flume监听日志变化，并且把增量的日志文件写入到hdfs中

1.采集日志文件时一个很常见的现象采集需求：比如业务系统使用log4j生成日志，日志内容不断增加，需要把追加到日志文件中的数据实时采集到hdfs中。1.1.根据需求，首先定义一下3大要素：采集源，即source—监控日志文件内容更新：exec ‘tail -F file’ 下沉目标，即sink—HDFS文件系统：hdfs sink Source和sink之间的传递通道

2018-01-04 15:38:20 328

转载 Hive外部分区表加载flume打到hdfs上文件，读不到.tmp文件

摘要 flume打到hdfs上时，按照文件大小生成文件，在达到指定大小之前数据都是以.tmp文件形式保存在hdfs上，hive外部表也会加载这些文件，但是当文件完成后.tmp会消失，这时候hive会报找不到文件的错误。类似于：Caused by：org.apache.ahdoop.ipc.RemoteException(java.io.FileNotFoundException)：File doe

2018-01-04 15:36:25 818

转载 flume1.7 TailDirSource断点续传与文件更名后数据重复采集的bug修复

简介 flume1.7新增了组件Taildir Source（详情参见官方链接：http://flume.apache.org/FlumeUserGuide.html#taildir-source），此组件支持断点续传功能。但是此组件有个bug，即如果有个A文件，被更名为B文件后，A中的数据会被重复采集一次。这里需要做出修复。（此问题借鉴于文章：https://baijiahao.

2017-12-20 10:55:12 835

转载 CentOS6.5升级内核到3.10.28

本文适用于CentOS 6.4, CentOS 6.5，估计也适用于其他Linux发行版。1. 准备工作确认内核及版本信息[root@hostname ~]# uname -r2.6.32-220.el6.x86_64[root@hostname ~]# cat /etc/centos-release CentOS release 6.5 (Final)安装软件

2017-12-19 15:14:35 346