数据仓库
绿萝蔓蔓绕枝生
这个作者很懒,什么都没留下…
展开
-
JSON数据清理(详解)
二、JSON数据清洗1、JSON数据仅以两条数据为例1593136280858|{"cm":{"ln":"-55.0","sv":"V2.9.6","os":"8.0.4","g":"C6816QZ0@gmail.com","mid":"489","nw":"3G","l":"es","vc":"4","hw":"640*960","ar":"MX","uid":"489","t":"1593123253541","la":"5.2","md":"sumsung-18","vn":"1.3.4","b原创 2020-11-22 21:30:27 · 5812 阅读 · 1 评论 -
Spark之日志数据清洗及分析(详细解说)
一、日志数据清洗及分析1、数据清洗基本步骤:按照Tab切割数据过滤掉字段数量少于8个的数据按照第一列和第二列对数据进行去重过滤掉状态码非200的数据过滤掉event_time为空的数据将url按照&以及=切割保存数据:将数据写入mysql表中日志拆分字段:event_timeurlmethodstatussipuser_uipaction_prependaction_client如下是日志中的一条数据按照Tab分隔后的示例,每一行代表一个字段,分别以上一原创 2020-11-19 20:17:02 · 4342 阅读 · 0 评论 -
数据仓库
1、什么是数据仓库数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合1.1、面向主题主题(Subject)是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念每一个主题基本对应一个宏观的分析领域在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象1.2、集成集成性是指数据仓库中数据必须是一致的数据仓库的数据是从原有的分散的多个数据库、数据文件和数据段中抽取来的数据来源可能既有内部数据又有外部数据集成方法统一:消除不一致的现象综合原创 2020-10-09 16:51:32 · 186 阅读 · 0 评论