读书笔记之大数据分析

最新推荐文章于 2023-02-25 21:47:39 发布

阿默mini

最新推荐文章于 2023-02-25 21:47:39 发布

阅读量802

点赞数

分类专栏： # 大数据技术及应用教程文章标签：大数据

本文链接：https://blog.csdn.net/qq_37635772/article/details/107174073

版权

大数据技术及应用教程专栏收录该内容

8 篇文章 0 订阅

订阅专栏

1、大数据分析的数据类型：
①交易数据：大数据平台能够获取时间跨度更大、更海量的结构化交易数据，可以对更广泛的交易数据类型进行分析，不仅包括POS或电子商务购物数据，还包括交易行为数据；
②人为数据：非结构数据广泛存在于电子邮件、文档、图片、音频、视频，以及通过博客、维基，尤其是社交媒体产生的数据流，为使用文本分析功能提供了丰富的数据源；
③移动数据：移动设备上的APP能追踪和沟通无数事件，涉及范围从APP内的交易数据到个人信息资料或状态报告事件；
④机器和传感器数据：包括功能设备创建或生成的数据，例如智能电表、智能温度控制器、工厂机器和连接互联网的家用电器的数据，这些设备可以配置为与互联网络中的其他结点通信，还可以自动向中央服务器传输数据。

2、大数据分析的基本方法：
①预测性分析能力：可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性判断；
②数据质量和数据管理：是一些管理方面的最佳实践，通过标准化的流程和工具对数据进行处理，保证预先定义好的高质量分析结果；
③可视化分析：不管对数据分析专家还是普通用户，数据可视化是数据分析工具的最基本要求，可以更直观地展示数据，让数据说话；
④语义引擎：由于非结构化数据的多样性带来了数据分析的新挑战，我们需要一系列工具去解析、提取、分析数据，语义引擎需要被设计成能从“文档”中智能提取信息；
⑤数据挖掘算法：集群、分割、孤立点分析还有其他算法能让我们深入数据内部，挖掘价值。

3、数据分析——用适当的统计分析方法对搜集到的大量数据进行分析，将它们加以汇总，理解并消化，以求最大化地开发数据的功能，发挥数据的作用。

目的——把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来，总结出研究对象的内在规律。
作用——现状分析、原因分析、预测分析，分别反映了数据分析的描述性、探索性和验证性。
步骤：
①明确目的和思路（先决条件、提供方向）：梳理分析思路，并搭建分析框架，把分析目的分解成若干个不同的分析要点，确保分析框架的体系化和逻辑性；
②数据收集：一般数据来源于四种方式，数据库、第三方数据统计工具、专业调研机构的统计年鉴、市场调查；
③数据处理（清洗、转化、提取、计算）：主要包括数据清洗、数据转化、数据提取、数据计算等处理方法，将各种原始数据加工成直观的可视化数据；
④数据分析（数据统计、数据挖掘）：用适当的分析方法和工具，对处理过的数据进行分析，提取有价值的信息，形成有效结论的过程。数据挖掘是一种高级数据分析方法，侧重解决分类、聚类、关联、预测四类数据分析问题，重点在寻找模式与规律；
⑤数据展现（图表、表格、文字）：一般情况下，数据通过表格和图形的方式来呈现，还可以进一步加工成所需要的图形；
⑥报告撰写（框架清晰、明确结论、提出建议）：好的数据分析报告首先需要一个好的分析框架，并且图文并茂、层次明晰、一目了然。

4、大数据分析技术：
①推荐引擎：网络资源和在线零售商使用Hadoop根据用户的个人资料和行为数据匹配和推荐用户、产品、服务；
②情感分析：Hadoop与先进的文本分析工具结合，分析社会化媒体和社交网络发布的非结构化文本，包括Tweets和Facebook，以确定用户对特定公司、品牌或产品的情绪；
③风险建模：使用Hadoop和下一代数据仓库分析大量交易数据，以确定金融资产的风险，模拟市场行为为潜在的假设方案做准备，并根据风险为潜在客户打分；
④欺诈检测：使用大数据技术将客户行为与历史交易数据结合来检测欺诈行为；
⑤营销活动分析：使用技术手段监测和确定营销活动的有效性，大数据让营销团队拥有更大量的越来越精细的数据；
⑥客户流失分析：分析客户行为数据并确定分析模型，模型指出哪些客户最有可能流向存在竞争关系的供应商或服务商，使得企业可以采取最有效的措施挽留即将流失客户；
⑦社交图谱分析：通过挖掘社交网络数据，可以确定社交网络中哪些客户对其他客户产生最大的影响力，有助于企业确定其“最重要”的客户，即那些最能够影响他人购买行为的客户；
⑧用户体验分析：将单一客户互动渠道数据整合在一起，以获得对客户体验的完整视图，使得企业能够了解客户交互渠道之间的相互影响，从而优化整个客户生命周期的用户体验；
⑨网络监控：获取、分析和显示来自服务器、存储设备和其他IT硬件的数据，使管理员能够监视网络活动、诊断瓶颈等问题；
⑩研究发展：进行大量文本和历史数据的研究，以协助新产品的开发。

5、数据挖掘（Data Mining）：又称数据库中的知识发现，是目前人工智能和数据库领域研究的热点问题，所谓数据挖掘，是从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程，主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，作出归纳性推理，从中挖掘潜在的模式，帮助决策者调整市场策略，减少风险，做出正确决策。

6、数据挖掘的常用方法：

分类——找出数据库中一组数据对象的共同特点，并按照分类模式将其划分为不同类别，其目的是通过分类模型，将数据库中的数据项映射到某个给定类别，可以应用到客户分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测；
回归分析——反映的是事务数据库中属性值在时间上的特征，产生一个将数据项映射到一个实值预测变量的函数，发现变量或属性间的依赖关系，主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等；
聚类——聚类分析是把一组数据按照相似性和差异性分为几个类别，目的是使得属于同一类别的数据间的相似性尽可能大，不同类别数据间的相似性尽可能小，增强了人们对客观现实的认识，是概念描述和偏差分析的先决条件；
关联规则——描述数据库中数据项之间所存在的关系的规则，即根据一个事务中某些项的出现可导出另一些项在同一事务的出现，标明隐藏在数据之间的关联和相互关系；
特征——特征分析是从数据库中的一组数据中提取出关于这些数据的特征式（表达了该数据集的总体特征）；
变化和偏差分析——偏差包括很大一类潜在的有趣知识，如分类中的反常实例、模式的例外、观察结果对期望的偏差，目的是寻找观察结果与参照量之间有意义的差别，意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面；
Web页挖掘——可以利用Web的海量数据进行分析，收集政治、经济、政策、科技、金融等有关信息，集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息，并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆，对这些信息进行分析和处理，以便识别、分析、评价、管理危机。

7、数据挖掘技术：

人工神经网络（Artificial Neural Network，ANN）：从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络。神经网络是一种运算模型，由大量结点（神经元）之间互相连接构成，每个结点代表一种特定的输出函数，称为激励函数，每两个结点之间的连接都代表一个对于通过该连接信号的加权值，称为权重，相当于人工神经网络的记忆，网络的输出则依网络的连接方式、权重值、激励函数不同而不同，通常是对自然界某种算法或者函数的逼近，也可能是一种逻辑策略的表达。
决策树（Decision Tree）：由于决策分支画出图形很像一棵树的枝干而得名，是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶结点代表一种类别。在已知各种情况发生的概率下，通过构成决策树来求取净现值的期望值≥0的概率，评价项目风险，判断可行性的决策分析方法，是直观运用概率分析的一种图解法；机器学习中决策树是一个预测模型，代表对象属性与对象值之间的一种映射关系，Entropy=系统凌乱程度，使用算法ID3、C4.5和C5.0生成树算法使用熵。
遗传算法（Genetic Algorithm）：模拟达尔文生物进化论中自然选择和遗传学机理的生物进化过程的计算模型，是一种通过模拟自然进化过程搜索最优解的方法。遗传算法从代表问题可能潜在的解集的某一个种群（由经过基因编码的一定数目的个体组成，每个个体是染色体附有特征的实体）开始，产生初代种群后，按照适者生存和优胜劣汰原理，逐代演化出越来越好的近似解，每一代根据问题域中个体的适应度大小选择个体，并借助自然遗传学的遗传算子进行组合交叉和变异；这个过程将导致种群像自然进化一样的后生代种群比前代更加适应于环境，末代种群中的最优个体经过解码，可以作为问题近似最优解。
邻近算法/k近邻分类算法（k-Nearest Neighbor，kNN）：算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中大多数属于某一个类别，则该样本也属于这个类别，并且具有这个类别上样本的特性，该方法在确定分类决策上只依据最邻近的一个或几个样本的类别来决定待分样本所属的类别，对于类域的交叉或重叠较多的待分样本集使用KNN较为合适。

8、商务智能BI：=数据+分析+决策+利益，描述了一系列概念和方法，通过应用基于事实的支持系统来辅助商业决策的制定，将企业中现有的数据转化为知识，帮助企业做出明智的业务经营决策，既可以是操作层的，也可以是战术层和战略层的决策。BI是对商业信息的搜集、管理和分析过程，目的是使得企业的各级决策者获得知识和洞察力，促使做出对企业更有利的决策，BI的实现涉及到软件、硬件、咨询服务及应用，基本体系包括数据仓库、联机分析处理、数据挖掘三个部分。

9、商务智能的技术体系：

数据仓库DW——保存历史数据、阶段性数据，并且从时间上分析，能够装载外部数据并接受大量的外部查询，建立数据仓库的过程一般包括清洗、抽取数据操作，统一数据格式，设定自动程序以定时抽取操作数据并自动更新数据仓库，预先执行合计计算等步骤；
在线分析处理OLAP——是一种高度交互式的过程，信息分析专家可以即时进行反复分析，迅速获得所需结果，也是对存储在多维数据库或关系型数据库中的数据进行分析、处理的过程，一般包括三种可供选择的方案：
①预先计算：小结数据在使用前进行计算并存储；
②即时计算和存储：小结计算在查询时计算，然后存储结果，因为消除了相应的运行计算，使得查询运行变得更快；
③随时计算：用户需要时对小结数据进行计算。
数据挖掘DM——从浩如瀚海的数据和文档中发现以前未知的、可以理解的信息的过程，由于数据挖掘的价值在于扫描数据仓库或建立非常复杂的查询，数据和文本挖掘工具必须提供很高的吞吐量，并拥有并行处理的功能而且可以支持多种采集技术，还必须拥有良好的扩展功能，能够支持将来可能遇到的各种数据和计算环境。

10、数据指标的五个维度：
①用户规模和质量：主要分析用户规模指标，这类指标一般为产品考核的重点指标，是APP分析的最重要的维度，包括活跃用户（衡量应用用户规模的指标）、新增用户（衡量营销推广渠道效果的最基础指标）、用户构成、用户留存率（指某一统计时段内的新增用户数中再经过一段时间后仍启动该应用的用户比例，是验证产品用户吸引力的重要指标）、每个用户总活跃天数（在统计周期内平均每个用户在应用的活跃天数）五个指标；
②参与度分析：主要分析用户的活跃度，包括启动次数分析（需要关注启动次数的总量走势和人均启动次数）、使用时长分析（衡量产品活跃度和产品质量的重要指标）、访问页面分析和使用时间间隔分析；
③渠道分析：主要分析渠道的推广效果，分析各渠道在相关渠道质量的变化和趋势，以科学评估渠道质量，优化渠道推广策略，包括新增用户、活跃用户、启动次数、单次使用时长和留存率等指标；
④功能分析：主要分析功能活跃情况、页面访问路径（统计用户从打开应用到离开应用整个过程每一步的页面访问和跳转情况，需要考虑用户身份多样性、目的多样性、访问路径多样性）以及转化率（指进入下一页面的人数与当前页面人数的比值），漏斗模型可以用于分析产品中关键路径的转化率，以确定产品流程设计是否合理，分析用户体验问题；
⑤用户属性分析：主要从设备终端、网络及运营商和用户画像（包括人口统计学特征分析、用户个人兴趣分析、用户商业兴趣分析等相关数据）角度分析用户特征。

11、大数据营销：基于多平台的大量数据，依托大数据技术的基础上，应用于互联网广告行业的营销方式，衍生于互联网行业，又服务于互联网行业，依托多平台的大数据采集以及大数据技术的分析与预测能力，能够使广告更加精准有效，给品牌企业带来更高的投资回报率。特点如下：
①多平台化数据采集：来源通常是多样化的，多平台化的数据采集能使对网民行为的刻画更加全面准确；
②强调时效性：网民的消费行为和购买方式极易在短的时间内发生变化，在需求最高点时需要及时进行营销；
③个性化营销：在网络时代，广告主的营销理念已经从“媒体导向”转变为“受众导向”，以往的营销活动以媒体为导向，选择知名度高、浏览量大的媒体进行投放；如今的广告主完全以受众为导向进行个性化广告营销；
④性价比高：大数据营销在最大程度上让广告主的投放做到有的放矢，可根据实时性的效果反馈，及时对投放策略进行调整；
⑤关联性：大数据营销的一个重要特点在于网民关注的广告与广告之间的关联性，由于大数据在采集过程中可快速得知目标受众关注的内容，这些有价信息让广告的投放过程产生前所未有的关联性。

12、“社会感知”：借助各类空间大数据研究人类时间空间的行为特征，揭示社会经济现象的时空分布、联系及过程的理论和方法，与强调基于多种传感设备采集微观个体行为数据的社会感知计算相比，社会感知更加强调群体行为模式以及背后的地理空间规律具体方法有社会感知分析方法、个体行为模式分析法、活动时间变化特征分类法、场所情感及语义分析法、空间交互分析。可以从以下三个方面获取人的时间空间行为特征：
①对地理环境的情感和认知，如基于社交媒体数据获取人们对于一个场所的感受；
②在地理空间中的活动和移动，如基于出租车、签到等数据获取海量移动轨迹；
③个体之间的社交关系，如基于手机数据获取用户间的通话联系信息。

13、消费意图：指消费者通过显式或隐式的方式来表达对于某一产品或服务的购买意愿，社会媒体用户多、发布的信息量大，在这些信息中用户会表达各种各样的需求和兴趣爱好。

显式消费意图——在用户所发布的社交媒体文本中，显式地指出想要购买的商品，通常通过模式匹配的方法识别。
隐式消费意图——用户不会再所发布的社交媒体文本中显式地指出想要购买的商品，需要阅读者通过对文本语义的理解和进一步推理才能猜测到用户想要购买的商品，卷积神经网络对于解决该任务有两方面的优势：①卷积层可以以滑动窗口的方式捕捉词汇级语义特征，马克斯池（max pooling）层可以很好地将词汇级特征整合成句子级语义特征；②可以学习不同层次的特征表示，其中一部分可以在不同领域间迁移。

14、金融市场的预测研究分为时间序列交易数据驱动和文本驱动两个不同方向。

时间序列交易数据驱动：时间序列交易数据是最早用于建立预测模型的一类数据，主要包括股票历史价格数据、历史交易量数据、历史涨跌数据等，传统金融市场研究中大多从计量经济学的角度出发进行时间序列分析，进而预测市场的波动情况；
文本驱动：主要是挖掘新闻报道和社会媒体中报道的客观事实以及大众的情感波动，早期被应用在文本表示的技术主要基于词袋模型，之后自然语言处理技术逐渐被引入到金融市场预测中，基于语义框架可以挖掘出更加丰富的文本特征。