数据面试总结

大数据理解
指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

数据挖掘研发概念理解
对海量文本内容数据进行分类和聚类,包涵社交账户地域、性别、年龄等系列算法,基于内容的兴趣算法,态势分析、印象分析、情绪分析、意见领袖分析、满意度分析、用户分析、类别分析等多维度的智能算法体系。

什么是索引
索引是以表列为基础的数据库对象。索引中保存着表中排序的索引列,并且纪录了索引列在
数据库表中的物理存储位置,实现了表中数据的逻辑排序。通过索引,可以加快数据的查询速度
和减少系统的响应时间;可以使表和表之间的连接速度加快

索引分类:
主键索引 (Primary Key) 唯一的标识,主键不可重复,只能有一个列作为主键
唯一索引 (Unique) 避免重复的列出现,唯一索引可以重复,多个列都可以标识为唯一索引
常规索引 (Index) 默认的,使用index key 关键字来设置
全文索引 (FullText) 在特定的数据库引擎下才有

Delete 和 Truncate 的区别
Delte 删除的时候记录日志,而truncate 不记录日志。

几种数据库
关系型数据库 ( SQL )
MySQL , Oracle , SQL Server , SQLite , DB2 , …
关系型数据库通过外键关联来建立表与表之间的关系
非关系型数据库 ( NOSQL )
Redis , MongoDB , …
非关系型数据库通常指数据以对象的形式存储在数据库中,而对象之间的关系通过每个对象
自身的属性来决定

在使用left jion时,on和where条件的区别如下:
1、 on条件是在生成临时表时使用的条件,它不管on中的条件是否为真,都会返回左边表中的
记录。
2、where条件是在临时表生成好后,再对临时表进行过滤的条件。这时已经没有left join
的含义(必须返回左边表的记录)了,条件不为真的就全部过滤掉

hadoop
YARN的基本思想是将JobTracker的两个主要功能(资源管理和作业调度/监控)分离,主要方法是创建一个全局的ResourceManager(RM)和若干个针对应用程序的ApplicationMaster(AM)。这里的应用程序是指传统的MapReduce作业或作业的DAG(有向无环图)。
YARN 分层结构的本质是 ResourceManager

最新数据挖掘技术
朴素贝叶斯、Logistic回归、线性回归、KNN算法、SVM、Boosting、聚类、

数据挖掘的数据类型
连续性数据、离散型数据、文本型数据
依赖性数据 和 非依赖型数据
依赖性数据分为: 序列数据、空间数据、图数据

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

gm0012

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值