![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
朝辉惜时
人生苦短,我用python
展开
-
天猫店铺首页数据获取超详细注释
一、概述最近手机坏了想看看手机的价格,自己又是华为的忠实粉丝,就以华为官方旗舰店为例做个学习交流,对价格进行分析一波。纯js控制台,获取价格数据。喜欢的给个star,代码里面有详细解释 GitHub原源码地址...原创 2021-05-07 15:03:19 · 381 阅读 · 0 评论 -
数据湖总结
数据湖作为新一代大数据分析处理的基础设施,需要超越传统的大数据平台。个人认为目前在以下方面,是数据湖解决方案未来可能的发展方向。1) 云原生架构。关于什么是云原生架构,众说纷纭,很难找到统一的定义。但是具体到数据湖这个场景,个人认为就是以下三点特征:(1)存储和计算分离,计算能力和存储能力均可独立扩展;(2)多模态计算引擎支持,SQL、批处理、流式计算、机器学习等;(3)提供serverless态服务,确保足够的弹性以及支持按需付费。2) 足够用的数据管理能力。数据湖需要提供更为强大的数据管理能力,包括转载 2020-08-12 16:56:01 · 298 阅读 · 0 评论 -
数据湖(五)
数据湖建设的基本过程个人认为数据湖是比传统大数据平台更为完善的大数据处理基础支撑设施,完善在数据湖是更贴近客户业务的技术存在。所有数据湖所包括的、且超出大数据平台存在的特性,例如元数据、数据资产目录、权限管理、数据生命周期管理、数据集成和数据开发、数据治理和质量管理等,无一不是为了更好的贴近业务,更好的方便客户使用。数据湖所强调的一些基本的技术特性,例如弹性、存储计算独立扩展、统一的存储引擎、多模式计算引擎等等,也是为了满足业务需求,并且给业务方提供最具性价比的TCO。数据湖的建设过程应该与业务紧密结合转载 2020-08-12 16:53:41 · 280 阅读 · 0 评论 -
数据湖(四)
1.广告数据分析近年来,流量获取的成本就越来越高,线上渠道获客成本的成倍增长让各行各业都面临着严峻的挑战。在互联网广告成本不断攀升的大背景下,以花钱买流量拉新为主要的经营策略必然行不通了。流量前端的优化已成强弩之末,利用数据工具提高流量到站后的目标转化,精细化运营广告投放的各个环节,才是改变现状更为直接有效的方式。说到底,要提高广告流量的转化率,必须依靠大数据分析。为了能够提供更多的决策支撑依据,需要采取更多的埋点数据的收集和分析,包括但不限于渠道、投放时间、投放人群,以点击率为数据指标进行数据分析,从转载 2020-08-12 16:46:13 · 257 阅读 · 1 评论 -
数据湖(三)
各厂商的数据湖解决方案数据湖作为当前的一个风口,各大云厂商纷纷推出自己的数据湖解决方案及相关产品。本节将分析各个主流厂商推出的数据湖解决方案,并将其映射到数据湖参考架构上,帮助大家理解各类方案的优缺点。一、 AWS数据湖解决方案图7. AWS数据湖解决方案图7是AWS推荐的数据湖解决方案。整个方案基于AWS Lake Formation构建,AWS Lake Formation本质上是一个管理性质的组件,它与其他AWS服务互相配合,来完成整个企业级数据湖构建功能。上图自左向右,体现了数据流入、数据转载 2020-07-23 15:48:02 · 521 阅读 · 0 评论 -
数据湖(二)
数据湖的基本架构数据湖可以认为是新一代的大数据基础设施。为了更好的理解数据湖的基本架构,我们先来看看大数据基础设施架构的演进过程。1) 第一阶段:以Hadoop为代表的离线数据处理基础设施。如下图所示,Hadoop是以HDFS为核心存储,以MapReduce(简称MR)为基本计算模型的批量数据处理基础设施。围绕HDFS和MR,产生了一系列的组件,不断完善整个大数据平台的数据处理能力,例如面向在线KV操作的HBase、面向SQL的HIVE、面向工作流的PIG等。同时,随着大家对于批处理的性能要求越来越高,转载 2020-07-23 15:22:01 · 341 阅读 · 0 评论 -
数据湖(一)
数据湖的基本特点对数据湖的概念有了基本的认知之后,我们需要进一步明确数据湖需要具备哪些基本特征,特别是与大数据平台或者传统数据仓库相比,数据湖具有哪些特点。在具体分析之前,我们先看一张来自AWS官网的对比表格上表对比了数据湖与传统数仓的区别,个人觉得可以从数据和计算两个层面进一步分析数据湖应该具备哪些特征。在数据方面:1)“保真性”。数据湖中对于业务系统中的数据都会存储一份“一模一样”的完整拷贝。与数据仓库不同的地方在于,数据湖中必须要保存一份原始数据,无论是数据格式、数据模式、数据内容都不应该被修转载 2020-07-23 15:14:07 · 297 阅读 · 0 评论 -
初探数据湖
简单聊聊数据湖一、 什么是数据湖|0x00 数据湖是什么“数据湖”最近好像一下子火了,远比“数据仓库”要吃香,在做云计算的公司都在主推这一概念。关于这个概念的标准解释,不论是Wiki也好、AWS也罢,基本上都集中在几个共性上:存储能力:支持企业数据的海量存储需求;数据类型:支持结构化、半结构化及非结构化数据;数据管理:完善的数据信息管理能力,包括但不限定于权限、数据格式、血缘追踪等;个性化分析:不仅要支持离线批量处理,也要支持实时流式处理,以及交互式分析需求;生命周期管理:原始、中间、结果数转载 2020-07-23 14:37:15 · 229 阅读 · 0 评论 -
数据分析入门(三)
数据探索通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程数据质量分析缺失值产生的原因:1.有些信息暂时无法获取,或者获取信息代价太大2.有些信息遗漏3.属性值不存在缺失值的影响:1.数据挖掘建模将丢失大量有用信息2.数据挖掘模型表现出的不确定性更加显著,模型中蕴含的规律更难把握3.包含空值的数据会使建模过程陷入混乱,导致不...原创 2019-07-11 11:47:35 · 258 阅读 · 0 评论 -
数据分析入门(二)
Python数据分析简介python 是一门简单易学且功能强大的编程语言。拥有着高效的高级数据结构,并且能够用简单而高效的方式进行面向对象编程搭建python开发平台1.考录问题python 官网 :https://www.python.org操作系统 python版本2.基础平台的搭建Windows直接到官网下载相应的安装包Linux自带python 2....原创 2019-07-10 09:53:56 · 138 阅读 · 0 评论 -
数据分析入门(一)
数据挖掘基础eg:某餐饮企业的困惑?客户关系前厅管理后厨管理财务管理物资管理从餐饮到数据挖掘从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策的模型,提供预测性决策支持的方法、工具和过程,就是数据挖掘;他是利用各种分析工具在大量数据中寻找其规律和发现模型与数据之间关系的过程,是统计学、数据库技术和人工智能技术的结合...原创 2019-07-09 10:16:17 · 169 阅读 · 0 评论