数据面试总结

最新推荐文章于 2022-10-09 23:06:15 发布

gm0012

最新推荐文章于 2022-10-09 23:06:15 发布

阅读量134

点赞数

本文链接：https://blog.csdn.net/gm0012/article/details/114691234

版权

大数据理解
指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

数据挖掘研发概念理解
对海量文本内容数据进行分类和聚类，包涵社交账户地域、性别、年龄等系列算法，基于内容的兴趣算法，态势分析、印象分析、情绪分析、意见领袖分析、满意度分析、用户分析、类别分析等多维度的智能算法体系。

什么是索引
索引是以表列为基础的数据库对象。索引中保存着表中排序的索引列，并且纪录了索引列在
数据库表中的物理存储位置，实现了表中数据的逻辑排序。通过索引，可以加快数据的查询速度
和减少系统的响应时间;可以使表和表之间的连接速度加快

索引分类：
主键索引 (Primary Key) 唯一的标识，主键不可重复，只能有一个列作为主键
唯一索引 (Unique) 避免重复的列出现，唯一索引可以重复，多个列都可以标识为唯一索引
常规索引 (Index) 默认的，使用index key 关键字来设置
全文索引 (FullText) 在特定的数据库引擎下才有

Delete 和 Truncate 的区别
Delte 删除的时候记录日志，而truncate 不记录日志。

几种数据库
关系型数据库 ( SQL )
MySQL , Oracle , SQL Server , SQLite , DB2 , …
关系型数据库通过外键关联来建立表与表之间的关系
非关系型数据库 ( NOSQL )
Redis , MongoDB , …
非关系型数据库通常指数据以对象的形式存储在数据库中，而对象之间的关系通过每个对象
自身的属性来决定

在使用left jion时，on和where条件的区别如下：
1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的
记录。
2、where条件是在临时表生成好后，再对临时表进行过滤的条件。这时已经没有left join
的含义（必须返回左边表的记录）了，条件不为真的就全部过滤掉

hadoop
YARN的基本思想是将JobTracker的两个主要功能（资源管理和作业调度/监控）分离，主要方法是创建一个全局的ResourceManager（RM）和若干个针对应用程序的ApplicationMaster（AM）。这里的应用程序是指传统的MapReduce作业或作业的DAG（有向无环图）。
YARN 分层结构的本质是 ResourceManager

最新数据挖掘技术
朴素贝叶斯、Logistic回归、线性回归、KNN算法、SVM、Boosting、聚类、

数据挖掘的数据类型
连续性数据、离散型数据、文本型数据
依赖性数据和非依赖型数据
依赖性数据分为：序列数据、空间数据、图数据

gm0012

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据面试总结

大数据理解指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。数据挖掘研发概念理解对海量文本内容数据进行分类和聚类，包涵社交账户地域、性别、年龄等系列算法，基于内容的兴趣算法，态势分析、印象分析、情绪分析、意见领袖分析、满意度分析、用户分析、类别分析等多维度的智能算法体系。什么是索引索引是以表列为基础的数据库对象。索引中保存着表中排序的索引列，并且纪录了索引列在数据库表中的物理存储位
复制链接

扫一扫