数据研发学习笔记
文章平均质量分 91
Lynn Wen
这个作者很懒,什么都没留下…
展开
-
数据研发学习笔记09:关联规则挖掘及Python实践
文章目录1 引言2 频繁模式与关联规则3 频繁项集的典型挖掘方法3.1 逐层发现算法Apriori3.2 无候选集发现算法FP-growth4 关联规则的生成方法5 关联规则的其他类型6 关联规则的兴趣度的其他度量6.1 Lift度量6.2 cosine度量7 Python实践:关联规则挖掘1 引言关联规则挖掘(Association Rules Mining)或者关联分析(Association Analysis)最早是为了进行购物篮分析而提出的。关联规则可以用于对交叉营销和市场布局进行辅助决策。原创 2020-05-24 22:31:36 · 930 阅读 · 0 评论 -
数据研发学习笔记08:数据预处理
文章目录1 数据预处理基本思想2 数据规范化2.1 最小-最大法(min-max normalization)2.2 零均值规范化(z-score)3 数据离散化3.1 等距离(equal- distance)分箱3.2 等频率(equal-frequency)分箱3.3 基于熵的离散化方法3.4 ChiMerge方法4 数据清洗4.1 处理缺失数据4.2 处理噪音数据5 特征提取与特征选择5.1 特征提取5.2 特征选择1 数据预处理基本思想数据在搜集时由于各种原因可能存在缺失、错误、不一致等问题原创 2020-05-23 16:20:34 · 2306 阅读 · 0 评论 -
数据研发学习笔记07:利用Python对数据进行描述性统计
文章目录1.1 集中趋势1.1 均值1.2 中位数1.3 众数2 离散趋势2.1 极差2.2 四分位数2.3 四分位数极差(四分位距)2.4 五数概括2.5 箱线图2.6 方差和标准差2.7 DataFrame描述性统计3 基本统计图3.1 条形图3.2 饼状图3.3 折线图3.4 直方图3.5 散点图3.6 分位数-分位数图4 高级绘图4.1 雷达图4.2 词云图5 计算数值属性的三种距离5.1 欧氏距离5.2 曼哈顿距离5.3 明可夫斯基距离1.1 集中趋势1.1 均值1.2 中位数1原创 2020-05-23 11:18:38 · 725 阅读 · 0 评论 -
数据研发学习笔记06:数据挖掘分析方法概述
文章目录1 分类2 聚类3 关联分析4 数值预测5 异常点挖掘6 序列分析7 社会网络分析数据挖掘是从大量数据中自动发现隐含的信息和知识的过程,属于主动分析方法,不需要分析者的先验假设,可以发现未知的知识。1 分类分类(classification) 是通过对具有类别的对象的数据集进行学习,概括其主要特征,构建分类模型,根据该模型预测对象的类别的一种数据挖掘和机器学习技术。例如,电信公司的客户可以分为两类,一类是忠诚的,一类是流失的。根据这两类客户的个人特征方面的数据以及在公司的消费方面的数据,利用原创 2020-05-23 10:16:50 · 615 阅读 · 0 评论 -
数据研发学习笔记05:SQL复习梳理
文章目录1 SQL简介1.1 SQL是什么1.2 SQL能做什么1.3 RDBMS2 SQL基本命令2.1 SELECT2.2 WHERE2.3 AND & OR2.4 ORDER BY2.5 INSERT INTO2.6 UPDATE2.7 DELETE3 SQL高级命令1 SQL简介1.1 SQL是什么SQL 是用于访问和处理数据库的标准的计算机语言。SQL,指结构化查询语言,全称是 Structured Query Language。SQL 让您可以访问和处理数据库。SQL 是一原创 2020-05-20 20:40:27 · 757 阅读 · 1 评论 -
数据研发学习笔记4.11:大数据之数据可视化
文章目录1 可视化概述1.1 什么是数据可视化1.2 可视化的发展历程1.3 可视化的重要作用2 可视化工具2.1 入门级工具2.2 信息图表工具2.3 地图工具2.4 时间线工具2.5 高级分析工具3 可视化典型案例3.1 全球黑客活动3.2 互联网地图3.3 编程语言之间的影响力关系图3.4 百度迁徙3.5 世界国家健康与财富之间的关系3.6 3D可视化互联网地图APP4 可视化工具实践4.1 D3可视化库使用指南4.2 Easel.ly信息图制作实践4.3 数据可视化之魔镜4.4 数据可视化之ECha原创 2020-05-18 15:23:25 · 4080 阅读 · 0 评论 -
数据研发学习笔记4.10:图计算
文章目录1 图计算简介1.1 图结构数据1.2 传统图计算解决方案的不足之处1.3 图计算通用软件2 Pregel2.1 Pregel简介2.2 Pregel图计算模型2.3 Pregel的C++ API2.4 Pregel的体系结构2.5 Pregel的应用实例2.6 Pregel和MapReduce实现PageRank算法的对比1 图计算简介1.1 图结构数据许多大数据都是以大规模图或网络的形式呈现,如社交网络、传染病传播途径、交通事故对路网的影响。许多非图结构的大数据,也常常会被转换为原创 2020-05-18 10:38:56 · 1816 阅读 · 0 评论 -
数据研发学习笔记4.9:流计算
文章目录1 流计算概述1.1 静态数据和流数据1.2 批量计算和实时计算1.3 流计算概念1.4 流计算与Hadoop1.5 流计算框架2 流计算处理流程3 流计算应用4 流计算开源框架 – Storm5 Spark Streaming6 Samza7 Storm、Spark Streaming和Samza的应用场景1 流计算概述1.1 静态数据和流数据1.2 批量计算和实时计算1.3 流计算概念1.4 流计算与Hadoop1.5 流计算框架2 流计算处理流程3 流计算应用原创 2020-05-18 09:19:57 · 1638 阅读 · 0 评论 -
数据研发学习笔记4.8:大数据之Spark
文章目录1 Spark概述1.1 Spark简介1.2 Scala简介1.3 Spark与Hadoop的比较2 Spark生态系统3 Spark运行架构3.1 基本概念3.2 架构设计3.3 Spark运行基本流程3.4 RDD运行原理4 Spark SQL5 Spark的部署和应用方式5.1 Spark三种部署方式5.2 从Hadoop+Storm架构转向Spark架构5.3 Hadoop和Spark的统一部署6 Spark编程实践6.1 Spark安装6.2 启动Spark Shell6.3 Spark原创 2020-05-17 15:44:01 · 823 阅读 · 0 评论 -
数据研发学习笔记4.7:大数据之数据仓库Hive
文章目录1 数据仓库概念2 Hive简介3 SQL转换成MapReduce作业的原理4 Impala5 Hive编程实践5.1 Hive的安装与配置5.2 Hive的数据类型5.3 Hive基本操作5.4 Hive应用实例5.5 Hive编程的优势1 数据仓库概念数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。根本目的:基于数据仓库的分析结果,支持企业内部的商业分析和决策。传统数据仓库在大数据时代面临的挑战:无法满足快速增长的海量数据存储需求无法有效处原创 2020-05-17 11:45:01 · 1248 阅读 · 1 评论 -
数据研发学习笔记4.6:大数据之MapReduce
文章目录1 概述1.1 分布式并行编程1.2 MapReduce模型简介1.3 Map和Reduce函数2 MapReduce体系结构3 MapReduce工作流程3.1 工作流程概述3.2 MapReduce各个执行阶段3.3 Shuffle过程详解3.4 MapReduce应用程序执行过程4 实例分析:WordCount4.1 WordCount程序任务4.2 WordCount设计思路4.3 一个WordCount执行过程的实例5 MapReduce的具体应用6 MapReduce编程实践1 概述原创 2020-05-17 10:17:49 · 1003 阅读 · 0 评论 -
数据研发学习笔记4.5:大数据之云数据库
文章目录1 云数据库概述2 云数据库产品3 云数据库系统架构3.1 UMP系统概述3.2 UMP系统架构3.3 UMP系统功能4 Amazon AWS和云数据库1 云数据库概述(1)云计算是云数据库兴起的基础云计算概念:通过整合、管理、调配分布在网络各处的计算资源,通过互联网以统一界面,同时向大量的用户提供服务。云计算特点:超大规模计算、虚拟化、高可靠性和安全性、通用性、动态扩展性、按需服务、降低成本。云计算应用场景:Google个人云服务;企业应用实例:Animoto、Amazon(2)原创 2020-05-15 16:46:35 · 1119 阅读 · 0 评论 -
数据研发学习笔记4.4:大数据之NoSQL数据库
文章目录1 NoSQL简介2 NoSQL兴起的原因3 NoSQL与关系数据库的比较4 NoSQL的四大类型4.1 键值数据库4.2 列族数据库4.3 文档数据库4.4 图形数据库5 NoSQL的三大基石5.1 CAP5.2 BASE5.3 最终一致性6 从NoSQL到NewSQL数据库7 文档数据库MongoDB7.1 MongoDB简介7.2 MongoDB概念解析7.3 安装MongoDB1 NoSQL简介通常,NoSQL数据库具有以下几个特点:灵活的可扩展性灵活的数据模型与云计算紧密融合原创 2020-05-15 16:02:50 · 1259 阅读 · 0 评论 -
数据研发学习笔记4.3:大数据之分布式数据库HBase
文章目录1概述1.1 从BigTable说起1.2 HBase简介1.3 HBase与传统关系数据库的对比分析2 HBase访问接口3 HBase数据模型3.1 数据模型概述3.2 数据模型相关概念3.3 数据坐标3.4 概念视图3.5 物理视图3.6 面向列的存储4 HBase的实现原理4.1 HBase功能组件4.2 表和Region4.3 Region的定位5 HBase运行机制5.1 HBase系统架构5.2 Region服务器工作原理5.3 Store工作原理5.4 HLog工作原理6 HBase原创 2020-05-15 15:56:16 · 1089 阅读 · 0 评论 -
数据研发学习笔记4.2:大数据之分布式文件系统HDFS
文章目录1 分布式文件系统2 HDFS简介3 HDFS相关概念3.1 块3.2 名称节点和数据节点4 HDFS体系结构4.1结构概述4.2 HDFS命名空间管理4.3 通信协议4.4 客户端4.5 HDFS体系结构的局限性5 HDFS存储原理5.1 冗余数据保存5.2 数据存取策略5.3 数据错误与恢复6 HDFS数据读写过程1 分布式文件系统分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群。与之前使用多个处理器和专用高级硬件的并行化处理装置不通过的是,目前的分布式文原创 2020-05-15 15:51:33 · 868 阅读 · 0 评论 -
数据研发学习笔记4.1:大数据之概述与处理架构Hadoop
文章目录1 大数据1.1 大数据概述1.2 大数据、云计算与物联网2 大数据处理架构Hadoop2.1 Hadoop简介1 大数据1.1 大数据概述信息科技为大数据时代提供技术支撑:(1)存储设备容量不断增加(2)CPU处理能力大幅提升(3)网络带宽不断增加数据产生方式的变革促成大数据时代的来临:大数据的特点:数据量大、数据类型繁多(结构化数据10%、非结构化数据90%)、处理速度快、价值密度低。大数据关键技术:分布式存储:解决海量数据的存储问题;分布式处理:解决海量数据的处理问题原创 2020-05-13 11:23:12 · 504 阅读 · 0 评论 -
数据研发学习笔记03:8种经典的统计学谬论
文章目录1 辛普森悖论 Simpson's Pradox1.1 概念1.2 案例1.3 避免方式2 基本比率谬误 Base Rate Fallacy2.1 概念2.2 案例2.3 避免方式3 伯克森悖论 Berkson's Paradox3.1 概念3.2 案例3.3 避免方式4 罗杰斯现象 Will Rogers Phenomenon4.1 概念4.2 案例4.3 避免方式5 幸存者偏差5.1 概念5.2 案例5.3 避免方式6 赌徒谬论 Gambler's Fallacy6.1 概念6.2 案例6.3原创 2020-05-13 11:17:19 · 5169 阅读 · 0 评论 -
数据研发学习笔记02:用户画像详解
文章目录1 用户画像本文主要围绕以下问题展开相应的数据研发相关知识的梳理与总结:用户画像是什么?用于解决什么场景下什么问题?如果让你设计一套用户画像,你的设计思路是什么?1 用户画像...原创 2020-05-13 09:42:45 · 1600 阅读 · 0 评论 -
数据研发学习笔记01:数据仓库
文章目录1 数据仓库1.1 数据仓库由来1.2 数据仓库定义1.3 数据仓库特点1.4 构建数据仓库1.5 数据库和数据仓库的区别2 OLTP与OLAP3 数据仓库的设计3.1 数据库设计和数据仓库设计3.2 数据仓库设计的原则3.3 数据仓库设计的三级模型3.4 ETL4 离线数仓和实时数仓4.1 离线数仓4.2 实时数仓4.3 两者区别5 分布式计算 Google Dataflow5.1 概述5.2 事件时间与处理时间5.3 Dataflow三大模型本文主要围绕以下问题展开相应的数据研发相关知识的梳理原创 2020-05-12 21:27:52 · 483 阅读 · 0 评论