大数据
文章平均质量分 94
scalad
github地址:https://github.com/scalad
展开
-
ShardingSphere——水平分表与数据迁移
分库分表相关概念以及利用shardingsphere相关的一些产品我们在线上如何对数据进行迁移原创 2022-03-16 11:37:00 · 9811 阅读 · 5 评论 -
Clickhouse实时消费Kafka
Clickhouse一、背景介绍二、操作流程三、一些概念四、一些问题一、背景介绍这么做的好处有:二、操作流程三、一些概念四、一些问题1、StorageKafka (queue): Can’t get assignment. It can be caused by some issue with consumer group (not enough partitions?). Will keep trying2、clickhouse DB::CSVRowInputFormat::readRow原创 2021-08-25 22:02:22 · 5561 阅读 · 3 评论 -
Apache DolphinScheduler 大数据工作流调度系统
这里写自定义目录标题Apache DolphinScheduler 大数据工作流调度系统一、为什么选择DolphinScheduler?1、丰富的业务类型2、可视化的DAG图3、活跃的社区和用户群4、开发语言和框架二、DolphinScheduler有哪些优势?三、DolphinScheduler的一些案例Apache DolphinScheduler 大数据工作流调度系统在选择DolphinScheduler之前,我们公司其实有用了一些开源的调度系统,像hera(赫拉)、xxl-job,前者是在我们的原创 2021-05-27 15:49:10 · 4516 阅读 · 9 评论 -
ElasticSearch分片不均匀,集群负载不均衡
ElasticSearch负载不均衡某天晚上,服务器告警,发现服务器接口出现很多400,初步定为是ES服务器CPU达到了98%以上,ES日志出现了很多错误日志,具体如下:参考https://blog.csdn.net/wwd0501/article/details/78399943也就是Elasticsearch在并发查询量大的情况下,访问流量超过了集群中单个Elasticsearch实例的处理能...原创 2018-06-02 16:55:21 · 33579 阅读 · 9 评论 -
ClickHouse技术分享
“ClickHouse works 100-1000x faster than traditional approaches”,这是官方网站首页的一句话,clickhouse比传统方式快100到1000倍,本次分享会围绕一个快字,了解clickhouse究竟有多快以及它是怎么做到这么快的。Apache Doris前身是百度Palo,是百度开发的面向在线报表和分析的数据仓库系统,在百度内部一些数据分析的场景有着广泛的应用,自2017年在GitHub上开源以来(比ClickHo.原创 2021-04-22 19:20:14 · 951 阅读 · 0 评论 -
使用 Scala 语言开发 Spark 应用程序
本文旨在通过具有实际意义的案例向读者介绍如何使用 Scala 语言开发 Spark 应用程序并在 Spark 集群上运行。本文涉及的所有源数据都将从 HDFS(Hadoop Distributed File System)读取,部分案例的输出结果也会写入到 HDFS, 所以通过阅读本文,读者也会学习到 Spark 和 HDFS 交互的一些知识引言在当前这个信息时代里,大数据所蕴含的转载 2016-03-06 19:48:28 · 3423 阅读 · 0 评论 -
Spark快速入门指南(Quick Start Spark)
这个文档只是简单的介绍如何快速地使用Spark。在下面的介绍中我将介绍如何通过Spark的交互式shell来使用API。Basics Spark shell提供一种简单的方式来学习它的API,同时也提供强大的方式来交互式地分析数据。Spark shell支持Scala和Python。可以通过以下方式进入到Spark shell中。1转载 2015-12-27 15:13:43 · 881 阅读 · 0 评论 -
Initial job has not accepted any resources; check your cluster UI to ensure that workers are registe
spark在提交任务时,出现如下错误:15/03/26 22:29:36 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient memory15/03/2转载 2015-12-08 19:00:46 · 3040 阅读 · 0 评论 -
spark RDD transformation和action操作
spark RDD transformation和action1.启用spark-shell,使用根目录下的test.txt作为文件的示例scala> scres30: org.apache.spark.SparkContext = org.apache.spark.SparkContext@68fda8scala> val file = sc.textFile("test.t原创 2015-12-09 14:14:48 · 1066 阅读 · 0 评论 -
运行基准测试hadoop
hadoop的发行版本中附带了几个基准测试,可以用来验证hadoop以及评估hadoop的性能。以运行排序基准为例,首先我们使用hadoop作业randomwrite生成一些随机数,然后使用排序实例对它进行排序。1.命令hadoop@master:/usr/hadoop$ hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples原创 2015-12-08 13:59:37 · 1660 阅读 · 0 评论 -
用hadoop计算PI值
一、计算PI值的方式与原理 百度一下,计算PI的方法还真不少。但在hadoop examples代码中的注释写的是:是采用 Quasi-Monte Carlo 算法来估算PI的值。 维基百科中对Quasi-Monte Carlo的描述比较理论,好多难懂的公式。 好在google了一把,找到了斯坦福大学网站上的一篇文章:《通过扔飞镖也能得转载 2016-01-01 18:43:31 · 6426 阅读 · 0 评论 -
spark集群环境下Lost task 0.0 in stage 10.0 (TID 17, 10.28.23.202): java.io.FileNotFoundException
spark从当前目录加载文件报错,Lost task 0.0 in stage 10.0 (TID 17, 10.28.23.202): java.io.FileNotFoundException,明显的,找不到本地的文件,但是本地的文件是存在的。scala> val file = sc.textFile("test.txt")15/12/09 13:22:36 INFO MemorySt原创 2015-12-09 13:24:57 · 10130 阅读 · 1 评论