![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
面试题
文章平均质量分 71
一起学习计算机
这个作者很懒,什么都没留下…
展开
-
操作系统面试题
一、一个程序从开始到结束的完整过程:预处理:条件编译,头文件包含,宏替换的处理,生成.i文件。编译:将预处理后的文件转换成汇编语言,生成.s文件汇编:汇编变为目标代码(机器代码)生成.o的文件链接:连接目标代码,生成可执行程序二、进程和线程的关系一个线程只能属于一个进程,而一个进程可以有多个线程,但至少有一个线程。线程是操作系统可识别的最小执行和调度单位资源分配给进程,同一进程的所有线程共享该进程的所有资源。同一进程中的多个线程共享代码段(代码和常量),数据段(全局变量和静态变量),扩展段原创 2020-11-30 23:23:03 · 297 阅读 · 0 评论 -
Spark面试题(持续更新)
spark简介Spark是一种由Scala语言开发的快速、通用、可扩展的大数据分析引擎 Spark Core中提供了Spark最基础与最核心的功能 Spark SQL是Spark用来操作结构化数据的组件。通过Spark SQL,用户可以使用SQL或者Apache Hive版本的SQL方言(HQL)来查询数据。 Spark Streaming是Spark平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的API。 Spark主要功能主要是用于数据计算,所以其实Spark一直被认为是Hado原创 2020-11-29 19:42:24 · 292 阅读 · 0 评论 -
Hbase面试题(持续更新)
1、每天百亿数据存入HBase,如何保证数据的存储正确和在规定的时间里全部录入完毕,不残留数据1)百亿数据:证明数据量非常大2)存入HBase:证明是跟HBase的写入数据有关3)保证数据的正确:要设计正确的数据结构保证正确性4)在规定时间内完成:对存入速度是有要求的那么针对以上的四个问题我们来一一分析1)数据量百亿条,什么概念呢?假设一整天60x60x24 = 86400秒都在写入数据,那么每秒的写入条数高达100万条,HBase当然是支持不了每秒百万条数据的,所以这百亿条数据可能不是通过实时原创 2020-11-28 20:37:30 · 879 阅读 · 0 评论 -
Mysql面试题(持续更新)
1、事务的四大特性原子性:不可分割的操作单元,事务中所有操作,要么全部成功;要么撤回到执行事务之前的状态一致性:如果在执行事务之前数据库是一致的,那么在执行事务之后数据库也还是一致的;隔离性:事务操作之间彼此独立和透明互不影响。事务独立运行。这通常使用锁来实现。一个事务处理后的结果,影响了其他事务,那么其他事务会撤回。事务的100%隔离,需要牺牲速度。‘持久性:事务一旦提交,其结果就是永久的。即便发生系统故障,也能恢复。2、事务隔离级别未提交读(Read Uncommitted):允许脏读原创 2020-11-28 19:29:34 · 126 阅读 · 0 评论 -
Flume面试题(持续更新)
1、Flume有哪些组件,具体有什么作用1)source:用于采集数据,Source 是产生数据流的地方,同时 Source 会将产生的数据流传输到 Channel,这个有点类似于 Java IO 部分的 Channel。2)channel:用于桥接 Sources 和 Sinks,类似于一个队列。3)sink:从 Channel 收集数据,将数据写到目标源(可以是下一个 Source,也可以是 HDFS或者 HBase)。2、什么是flumeflume最初是分布式、高可用的日志收集系统。原创 2020-11-27 22:07:51 · 822 阅读 · 0 评论 -
Hive面试题(持续更新)
1、Hive的架构2、Hive的特点数据存储位置Hive的数据存储在hdfs上,元数据可以存储在指定的地方比如mysql,PostgreSQL等。数据更新Hive处理数据时一般不对数据进行改写,因为它不支持行级别的增删操作,如果要进行更新数据,一般可以通过分区或者表直接覆盖。执行效率Hive 执行延迟较高。虽然在小数据量时传统数据库延迟更低,但是当数据规模大到超过传统数据库的处理能力的时候,Hive 的并行计算显然能体现出优势。数据规模Hive 支持大规模的数据计算,通常是PB级别的数原创 2020-11-27 22:05:53 · 208 阅读 · 0 评论 -
kafka常见面试题(持续更新)
1、什么是kafkaKafka是分布式发布-订阅消息系统,它最初是由LinkedIn公司开发的,之后成为Apache项目的一部分,Kafka是一个分布式,可划分的,冗余备份的持久性的日志服务,它主要用于处理流式数据。2、kafka中的zookeeper起到什么作用,可以不用zookeeper么zookeeper 是一个分布式的协调组件,早期版本的kafka用zk做meta信息存储,consumer的消费状态,group的管理以及 offset的值。考虑到zk本身的一些因素以及整个架构较大概率存在单点问原创 2020-11-26 23:39:39 · 449 阅读 · 0 评论