大数据常用的算法--常用的分类算法 决策树,作为一种简单易用的数据分类算法,在机器学习领域具有广泛的应用。它通过一系列逻辑分支规则将原始数据划分到不同的目标类别,从而实现对数据的分类和预测。决策树的核心思想是将数据集根据特征值进行划分,直到满足一定的停止条件为止。在这个过程中,决策树不断地生长,直到成为一个完整的分类模型。
机器学习:监督学习、无监督学习 定义:根据已有的数据集,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优的模型。在监督学习中训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。简单理解:可以把监督学习理解为我们教机器如何做事情。定义:我们不知道数据集中数据、特征之间的关系,而是要根据聚类或一定的模型得到数据之间的关系。
Spark常问面试题---项目总结 数据经flum的抽取,将各个埋点的日志数据传入hive(进行处理sparksql处理)作为ods层,然后对ods层的数据进行清洗脱敏等然后当作tmp临时表,然后将tmp表进行合并生成dwd公共数据明细层,然后以dwd为基础,按天进行轻度汇总,粒度是一行信息代表的行为,例如一天下单的次数,以dws数据层为基础,按主题进行汇总,一个项目可以分为很多的主题,进行汇总,例如某个用户从注册开始到现在下单次数等,ads为各种统计表提供数据。我在这个项目主要清洗的式日志数据,日志数据传过来的json格式。
Kafka 数据倾斜原因、影响与权威解决方案 在大数据处理领域,Kafka 作为一款高性能的分布式消息队列系统,被广泛应用于数据传输、实时流处理等场景。然而,在使用 Kafka 的过程中,数据倾斜问题可能会悄然出现,影响系统的性能和数据处理的准确性。本文将深入探讨 Kafka 数据倾斜的概念、产生原因、带来的问题以及相应的解决策略,帮助读者更好地应对这一挑战。
Flink在Linux系统上的安装与入门 这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有Hadoop、Storm,以及后来的Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink,也就在这个时候默默的发展着。
大数据面试题--day01 HashMap是基于哈希表的Map接口的非同步实现。HashMap底层就是一个数组结构,数组中的每一项又是一个链表。数组+链表结构,新建一个HashMap的时候,就会初始化一个数组。Entry就是数组中的元素,每个Entry其实就是一个key-value的键值对,它持有一个指向下一个元素的引用,这就构成了链表,HashMap底层将key-value当成一个整体来处理,这个整体就是一个Entry对象。
大数据面试题--kafka夺命连环问(后10问) 前15问博客链接:大数据面试题--kafka夺命连环问-CSDN博客16、kafka是如何做到高效读写?Kafka 实现高效读写主要依赖于以下几个关键机制:(一)分区技术与并行处理Kafka 作为分布式集群,采用分区技术将主题划分为多个分区。每个分区可分布在不同节点,生产者能并行向各分区写入数据,消费者组内多个消费者也可同时从不同分区读取数据,极大提升了系统的并行度和吞吐量。例如,一个主题有多个分区,不同的生产者线程或进程可针对不同分区独立发送消息,而多个消费者可并行处理不同分区的数据
kafka 在Linux上的安装部署 通过以上步骤,我们在 Linux 系统上成功安装和部署了 Kafka。在实际应用中,可以根据具体的业务需求进一步配置和优化 Kafka,如设置更复杂的安全机制、调整性能参数等。希望本教程对大家有所帮助,让大家能够顺利开启 Kafka 之旅。
Hive面试题-- hive中查询用户连续三天登录记录的实现与解析 在数据分析中,经常会遇到需要分析用户行为连续性的问题,比如查询用户连续三天登录的情况。本文将基于 Hive 来解决这个问题,并详细解释每一步的代码。
Hive面试题-- 查询各类型专利 top10 申请人及专利申请数 在数据处理中,尤其是涉及到专利信息等复杂数据时,Hive 是一个强大的工具。本文将详细介绍如何使用 Hive 查询语句来获取各类型专利 top10 申请人以及他们对应的专利申请数,以下是基于给定的t_patent_detail表结构的分析和查询步骤。
网易SQL面试题 - 举例如下:-- 输入1001 陈奕迅 十年 202410111002 陈奕迅 十年 202410111003 陈奕迅 十年 202410111004 陈奕迅 十年 202410111001 陈奕迅 富士山下 202410111002 陈奕迅 好久不见 202410111003 陈奕迅 好久不见 20241011。
mysql如何批量删除海量数据 一个表有1亿6000万的数据,有一个自增ID。最大值就是1亿6000万,需要删除大于250万以后的数据,有什么办法可以快速删除?看到mysql文档有一种解决方案:Use删除大表的多行数据时,会超出innod block table size的限制,最小化的减少锁表的时间的方案是:1、选择不需要删除的数据,并把它们存在一张相同结构的空表里2、重命名原始表,并给新表命名为原始表的原始表名3、删掉原始表。
大数据面试题-group by | order by| distribute by| sort by| cluser by | partition by 的区别 这个题目在大数据的面试中比较常见,属于所谓的八股文,考察面试者的基本功。
SQL面试题 这时候我们就需要判断每个用户的逾期天数是否小于所有配置的逾期天数,如果是则记为1,这时候会出现一个用户对应多个1,我们要取对应配置逾期天数最小的那一条,怎么办?看到多张表,先进行JOIN,但是一眼看去好像只能用逾期天数进行关联,可以又无法直接关联,那么就笛卡尔积(考虑到配置表很小)按照uid进行分组,配置逾期天数进行排序,对标志位进行求和,最后取开窗结果为1的行记录即可。
hadoop面试题 12、大数据是由结构化和非结构化数据组成的。8、hadoop包含的四大模块分别是: Hadoop common 、( HDFS ) 、( Mapreduce )、( yarn )。分而治之:就是把一个复杂的问题,按照一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的结果,把各部分的结果组成整个问题的结果。13、大数据关键技术两大核心技术是:( 分布式存储或(HDFS) )和( 分布式处理或(MapReduce) )。