大数据综合
文章平均质量分 71
往事随风ing
感恩 · 自信 · 宽容 · 耐心
展开
-
【大数据】-- maxcompute/odps 存储优化之小文件合并
分布式文件系统按块(Block)存放数据,文件大小比块大小(64MB)小的文件称为小文件。分布式系统不可避免会产生小文件,比如SQL或其他分布式引擎的计算结果、Tunnel数据采集。合并小文件可以达到优化系统性能的目的。本文为您介绍如何在MaxCompute中合并小文件。原创 2024-02-28 10:23:20 · 412 阅读 · 0 评论 -
【大数据】-- odps/maxcompute 表操作
对分区表的分区进行合并,即同一个分区表下的多个分区合并成一个分区,同时删除被合并的分区维度的信息,把数据移动到指定分区。查看MaxCompute内部表、视图、外部表、聚簇表或Transactional表的信息。您可以在创建表时设置生命周期,也可以对已有的表设置生命周期或修改生命周期时长。列出项目下所有的表、视图或符合某规则(支持正则表达式)的表、视图。列出一张表中的所有分区。为已存在的非分区表或分区表同时修改列名称和列注释。为已存在的非分区表或分区表添加列或注释。为已存在的非分区表或分区表修改列注释。原创 2024-02-28 10:09:23 · 338 阅读 · 0 评论 -
【大数据】-- dataworks 创建odps 的 hudi 外表
注意事项:必须要执行更新分区的操作命令,否则 odps 不能查询到数据。举例:创建 odps 的 hudi 外表。原创 2024-02-28 10:03:22 · 402 阅读 · 0 评论 -
【Spark基础】-- RDD 转 Dataframe 的三种方式
1、通过 StructType 创建 Dataframe(3、通过定义 schema 类创建 DataFrame。2、通过 RDD 推断创建 DataFrame (强烈推荐使用这种方法。原创 2023-11-28 14:33:51 · 1318 阅读 · 0 评论 -
【运维】-- 在线网络工具
这是搬瓦工官方做的一个 ping 在线测试网站工具。比较适合测试短时间的 ping 统计,并且在网页上以图表形式统计显示出来。chinaz 站长工具提供的主要是国内节点的多地网络在线测试。包含 ping 和 web 访问速度测试。b、除了 ping 之外也提供 port 端口连通性测试和 dig DNS 测试。在线网络工具,可以帮助您检测和分析IP地址的连接情况。a、丢包会以红色显示出来,可以下载图片。原创 2023-11-14 11:26:23 · 152 阅读 · 0 评论 -
【数据湖】-- Apache Hudi vs Delta Lake vs Apache Iceberg - Lakehouse Feature Comparison
本文转载已获取原文著作公司同意,若要转载,请邮件联系原文著作公司!联系邮箱:info@onehouse.ai。转载 2023-05-18 17:27:07 · 355 阅读 · 1 评论 -
【Kafka基础】-- Log Cleanup 策略
Min.Cleanable.dirty.ratio(默认为0.5):若是设置的更高,则会有更高效的清理,但是更少的清理操作触发。若是设置的更低,则清理的效率稍低,但是会有更多的清理操作被触发。log.cleanup.policy=delete 的策略,根据数据保留的时间、以及log的max size,对数据进行cleanup。如何处理过期数据是根据指定的policy(策略)决定的,而处理过期数据的行为,即为log cleanup。转载 2023-02-15 17:14:54 · 1175 阅读 · 0 评论 -
【Flume】-- flume metrics 指标说明
目录1.flume_exporter 的下载地址2.指标说明2.1 source监控项2.2 channel监控项2.3 sink监控项GitHub - woozhijun/flume_exporter: Prometheus exporter for flume2重点关注:EventReceivedCount重点关注:EventPutSuccessCount重点关注:EventDrainSuccessCount原创 2022-12-07 14:05:03 · 388 阅读 · 0 评论 -
[大数据汇总]-- 2016-09-03笔记(北京国家会议中心)
黄勇 去哪儿网 数据架构师 黄勇:大家好,我是去哪儿网的黄勇。今天给大家讲的是我们去哪儿网的高可用的方案。首先介绍一下我自己,我是07年参加工作的,我从07到09在智联招聘做Oracle,后来去了去哪儿网,后来开始做去IOE,然后在百度和去哪儿网待了五年。我当十年DBA的过程中,我发现尤其是MySQL,很多人考虑我们的MySQL高可用做。有些大公司有自己的研发人员,可以做自己的GT...原创 2017-07-11 22:50:54 · 839 阅读 · 0 评论 -
[大数据汇总]--spark、hadoop未来发展趋势解读
由于这个话题是一篇个人新闻论坛,所以此处不便复制粘贴只留下一个网址,各位感兴趣可以点击进入:http://www.infoq.com/cn/articles/hadoop-ten-years-interpretation-and-development-forecast?ref=myread...转载 2016-09-14 16:14:21 · 3288 阅读 · 0 评论 -
[大数据汇总]-- 数据分析(2016-01-23海淀区厂洼路)
CDA teacher1(以下涉及的词语和技术网上都有详细介绍,故不赘述)数据分析语言:R+Python一、第一部分(针对用户的分析)1、最常见的关联度分析例子:Tanic号关联分析2、目前使用语言:Python,原因是它的速度快,性能好,最关键的是“文本挖掘”的最强利器3、在算法设计中,逻辑判断关键词比非逻辑判断要快。4、常用推荐算法中会使用K-N算法,计算距离:d=1减...原创 2016-01-23 20:07:14 · 1379 阅读 · 0 评论 -
[大数据相关]-- 2016-01-08北京海淀远大路
IBM分会场第一部分:搭建搭建hadoop平台的思想:1、第一层 物理层:多台linux power8 服务器 2、第二层 文件管理:GPFS-FPO3、第三层计算层(symphony):资源池管理,统一管理、调度、监控4、第四层 工具层:(1)HBase (2)Hive5、第五层 应用层:applicat...原创 2016-01-10 18:25:58 · 1151 阅读 · 0 评论 -
[笔记]-- 大数据笔记-12.27海淀中关村
一、Hadoop部署,Hadoop之父------》Doug cutting (1)Cloudera 25%(2)Hortonworks 15%(3)Others 20%加起来并不是100% 二、预计到2016年数据分析有1600万的缺口认证 数据分析师...原创 2015-12-27 22:56:04 · 1117 阅读 · 0 评论