大数据
文章平均质量分 53
白杨Shayne
这个作者很懒,什么都没留下…
展开
-
解决Hadoop审计日志hdfs-audit.log过大的问题
新搭建的Hadoop环境没怎么用,就一个环境天天空跑,结果今天运维告诉我说有一台服务器磁盘超过80%了,真是太奇怪了,平台上就跑了几个spark测试程序,哪来的数据呢?终于发现在Hadoop的日志目录下,有一堆hdfs-audit.log日志,并且每个都有好几百M,删除之后,跟目录瞬间从81%减低到了42%;过了几天后,再检查服务器,发现磁盘根目录使用率没有明显增大,问题完美解决了~问题是暂时解决了,可这样不是长久之计,审计日志还在写,过几天还得来删除。用df查看,是根目录,还不是数据盘;原创 2023-08-02 18:25:13 · 2723 阅读 · 1 评论 -
解决一个Yarn异常:Alerts for Timeline service 2.0 Reader
环境是用Ambari搭建的大数据环境,版本是2.7.3,Hdp是3.1.0;我们用这一套组件搭建了好几个环境,都有这个异常告警,但hive、spark都运行正常,可以正常使用,所以也一直没有去费时间解决这个告警问题。原创 2023-08-02 18:12:24 · 1098 阅读 · 1 评论 -
解决一个Sqoop抽数慢的问题,yarn的ATSv2嵌入式HBASE崩溃引起
新搭建的一个Hadoop环境,用Sqoop批量抽数的时候发现特别慢,我们正常情况下是一个表一分钟左右,批量抽十几个表,也就是10分钟的样子,结果发现用了2个小时:查看yarn日志发现有如下情况:主要有两个情况:经网上查询得知,这个是因为,需要重置HBASE数据库步骤如下。原创 2023-08-02 17:54:46 · 2245 阅读 · 0 评论 -
国产自研开源大数据管理平台DataSophon
上面是贴的官方的介绍文案,从支持的组件来看,的确非常全面,可以说部署大数据集群,只要这一个平台就够了。同类型的平台,CDH被Ambari收购了,HDP不给下载了,要想使用CDH或者HDP只能去下载之前别人保存的安装包,Ambari公司把CDH跟HDP合并一下,又搞出一个收费版本CDP来,DataSophon出来的可以说是正当其时。官网:https://datasophon.github.io/datasophon-website/原创 2023-07-02 01:23:55 · 3421 阅读 · 3 评论 -
ClickHouse离线集群安装与使用
ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。是现在比较火的一个大数据分析组件,可用于报表底层数据、实时数据库等场景。原创 2023-05-15 00:43:39 · 1131 阅读 · 3 评论 -
数据标准的“六性”
规范性:数据内容、命名、格式、取值等规范统一。如时间信息都以yyyy-mm-dd格式存储,或者“性别”属性中,应使用“M”、“F”表示,还是用“1”,“0”表示,还是用“男”、“女”表示。 完整性:数据完整、没有缺失(包括看得见的缺失和看不见的缺失)。如人员信息完整涵盖性别、年龄等,或者身份证号码不能为空。 唯一性:同源或跨源的数据在信息含义上是一致不冲突的。如同一个人的性别都是一致的。 一致性:记录和字段都没有重复。如同一个ID没有重复记录。 准确性:数据内容及其含义是正确的。例如年龄在合理范原创 2023-05-14 17:40:45 · 2415 阅读 · 0 评论 -
数据仓库、数据湖、数据中台、数据中台的概念区别
传统数据仓库,第一次明确了数据分析的应用场景应该用单独的解决方案去实现,不再依赖于业务的数据库。在模型设计上,提出了数据仓库模型设计的方法论,为后来数据分析的大规模应用奠定了基础。 大数据平台是面向数据研发场景的,覆盖数据研发的完整链路的数据工作台 数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统。 数据中台的核心,是避免数据的重复计算,通过数据服务化,提高数据的共享能力,赋能数据应用原创 2023-05-14 11:59:49 · 140 阅读 · 0 评论 -
使用Flink MySQL cdc分别sink到ES、Kafka、Hudi
进入hudi目录,修改hudi/pom.xml,修改对应组件的版本,由于flink使用的是scala-2.11版本,spark3.x版本以上默认使用scala-2.12预编译,为了节省时间,我们在此使用spark2.4.8以scala-2.11预编译的版本,对应的hadoop版本为2.7。- 修改hadoop-2.7.3/etc/hadoop/hdfs-site.xml,如果目录不存在,给创建上。- 修改hadoop-2.7.3/etc/hadoop/mapred-site.xml。原创 2023-05-14 11:53:04 · 1679 阅读 · 0 评论 -
关于 Apache Doris 和 DorisDB、StarRocks 的关系
2013 年,我们把 Doris 进行了 MPP 框架的升级,并将新系统命名为 Palo ,2017 年我们以百度 Palo 的名字在 GitHub 上进行了开源,2018 年贡献给 Apache 基金会时,由于与国外数据库厂商重名,因此选择用回最初的名字,这就是 Apache Doris 的由来。从 2021 年下半年开始,我们就在努力地筹备 Apache Doris 毕业的事宜,横在我们面前的阻碍,其中最重要的事情之一就是 DorisDB 对 Apache Doris 的品牌侵权问题。转载 2023-05-14 11:19:13 · 9401 阅读 · 0 评论 -
ES报错FORBIDDEN/12/index read-only / allow delete (api)的解决办法
错误:blocked by: [FORBIDDEN/12/index read-only / allow delete (api)];原创 2023-05-14 11:01:39 · 703 阅读 · 0 评论 -
ElasticSearch的常用API接口
查看集群状态:http://xxx.xxx.xxx.xxx:19200/_cat/health?v 统计集群信息:http://xxx.xxx.xxx.xxx:19200/_cluster/stats?human&pretty 查看节点状态:http://xxx.xxx.xxx.xxx:19200/_cat/nodes?v 统计节点:http://xxx.xxx.xxx.xxx:19200/_nodes/stats 索引监控:http://xxx.xxx.xxx.xxx:19200/_cat原创 2023-05-14 10:59:28 · 336 阅读 · 0 评论