数据分析常用名词解释

最新推荐文章于 2023-09-23 18:40:16 发布

BuckData

最新推荐文章于 2023-09-23 18:40:16 发布

阅读量4.1k

点赞数 2

分类专栏：数据分析文章标签：数据分析

本文链接：https://blog.csdn.net/m0_66979647/article/details/123632514

版权

数据分析专栏收录该内容

1 篇文章 0 订阅

订阅专栏

聚合(Aggregation)： 搜索、合并、显示数据的过程。

算法(Algorithms)： 可以完成某种数据分析的数学公式。

分析法(Analytics)： 用于发现数据的内在涵义。

分析型客户关系管理（Analytical CRM/aCRM）： 用于支持决策，改善公司跟顾客的互动或提高互动的价值。针对有关顾客的知识，和如何与顾客有效接触的知识，进行收集、分析、应用。

行为分析法(Behavioural Analytics)： 这种分析法是根据用户的行为如“怎么做”，“为什么这么做”，以及“做了什么”来得出结论，而不是仅仅针对人物和时间的一门分析学科，它着眼于数据中的人性化模式。

批量处理（Batch processing）： 尽管从大型计算机时代开始，批量处理就已经出现了。由于处理大型数据集，批量处理对大数据具有额外的意义。批量数据处理是处理一段时间内收集的大量数据的有效方式。

商业智能（Business Intelligence）: 分析数据、展示信息以帮助企业的执行者、管理层、其他人员进行更有根据的商业决策的应用、设施、工具、过程。

分类分析(Classification analysis)： 从数据中获得重要的相关性信息的系统化过程;这类数据也被称为元数据(meta data),是描述数据的数据。

云计算(Cloud computing)： 构建在网络上的分布式计算系统，数据是存储于机房外的（即云端）。

集群计算（Cluster computing）： 这是一个使用多个服务器集合资源的“集群”的计算术语。要想更技术性的话，就会涉及到节点，集群管理层，负载平衡和并行处理等概念。

聚类分析(Clustering analysis)： 它是将相似的对象聚合在一起，每类相似的对象组合成一个聚类(也叫作簇)的过程。这种分析方法的目的在于分析数据间的差异和相似性。

冷数据存储(Cold data storage)： 在低功耗服务器上存储那些几乎不被使用的旧数据。但这些数据检索起来将会很耗时。

对比分析(Comparative analysis)： 在非常大的数据集中进行模式匹配时，进行一步步的对比和计算过程得到分析结果。

相关性分析(Correlation analysis)： 是一种数据分析方法，用于分析变量之间是否存在正相关，或者负相关。

仪表板(Dashboard)： 使用算法分析数据，并将结果用图表方式显示于仪表板中。

数据聚合工具(Data aggregation tools)： 将分散于众多数据源的数据转化成一个全新数据源的过程。

数据分析师(Data analyst)： 从事数据分析、建模、清理、处理的专业人员。

数据库(Database)： 一个以某种特定的技术来存储数据集合的仓库。

数据湖（Data lake）： 数据湖是原始格式的企业级数据的大型存储库。与此同时我们可以涉及数据仓库，它在概念上是相似的，也是企业级数据的存储库，但在清理、与其他来源集成之后是以结构化格式。数据仓库通常用于常规数据（但不是专有的）。数据湖使得访问企业级数据更加容易，你需要明确你要寻找什么，以及如何处理它并明智地试用它。

暗数据（Dark Data）： 基本上指的是，由企业收集和处理的，但并不用于任何意义性目的的数据，因此它是“暗”的，可能永远不会被分析。它可以是社交网络反馈，呼叫中心日志，会议笔记等等。有很多人估计，所有企业数据中的 60-90％可能是“暗数据”，但谁又真正知道呢？

数据挖掘（Data mining)： 数据挖掘是通过使用复杂的模式识别技术，从而找到有意义的模式，并得出大量数据的见解。

数据中心(Data centre)： 一个实体地点，放置了用来存储数据的服务器。

数据清洗(Data cleansing)： 对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。

数据质量（Data Quality）： 有关确保数据可靠性和实用价值的过程和技术。高质量的数据应该忠实体现其背后的事务进程，并能满足在运营、决策、规划中的预期用途。

数据订阅(Data feed)： 一种数据流，例如Twitter订阅和RSS。

数据集市(Data Mart)： 进行数据集买卖的在线交易场所。

数据建模(Data modelling)： 使用数据建模技术来分析数据对象，以此洞悉数据的内在涵义。

数据集(Data set)： 大量数据的集合。

数据虚拟化(Data virtualization)： 数据整合的过程，以此获得更多的数据信息，这个过程通常会引入其他技术，例如数据库，应用程序，文件系统，网页技术，大数据技术等等。

判别分析(Discriminant analysis)： 将数据分类，按不同的分类方式，可将数据分配到不同的群组，类别或者目录。是一种统计分析法，可以对数据中某些群组或集群的已知信息进行分析，并从中获取分类规则。

分布式文件系统(Distributed File System)： 提供简化的，高可用的方式来存储、分析、处理数据的系统。

文件存贮数据库(Document Store Databases)： 又称为文档数据库，为存储、管理、恢复文档数据而专门设计的数据库，这类文档数据也称为半结构化数据。

探索性分析(Exploratory analysis)： 在没有标准的流程或方法的情况下从数据中发掘模式。是一种发掘数据和数据集主要特性的一种方法。

提取-转换-加载(ETL:Extract,Transform and Load)： 是一种用于数据库或者数据仓库的处理过程，天善学院有国内唯一的最全的ETL学习课程。即从各种不同的数据源提取(E)数据，并转换(T)成能满足业务需要的数据，最后将其加载(L)到数据库。

BuckData

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据分析常用名词解释

介绍在Python环境下，利用百度AI开放平台文字识别技术，对图片类表格进行识别，生成Excel文件，并下载到指定文件夹内。百度表格文字识别每天50次免费，已经识别过的表格可不限次下载图片支持jpg/png/bmp格式，推荐使用JPG格式。事情准备已安装好Python环境，已安装Pycharm 步骤 1、注册并登录百度AI开放平台 2、创建文字识别应用，并记下该应用的AppID、API Key和Secret Key。 3、安装OCR Python SDK。 ...
复制链接

扫一扫