大数据分析
CWS_chen
之前都是,把学习记录、开发经验、踩过的坑,都保存到云盘里了。
展开
-
大数据常见错误解决方案
1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries!解决方法:add export SPARK_LOCAL_IP="127.0.0.1" to spark-env.sh2、j...转载 2017-12-27 09:55:57 · 15641 阅读 · 0 评论 -
精细化营销推广渠道分析
伴随流量成本的不断增长,精准化营销的优势日益凸显,用数据说话成为对每个市场营销人员的基本要求。 为什么要做渠道分析 1.评估推广投入产出比——流量来源分析需要在关注各个来源渠道带来流量的多少的同时,兼顾渠道所带来流量质量。即进行了多少的渠道投入,这些投入给网站带来了多少的收益。 2.分析把控用户需求——不同推广模式带来的访客,到访网站的目的也会有所不同。...原创 2018-01-17 10:48:50 · 2148 阅读 · 0 评论 -
Hive数据模型的几种表 和 窗口函数 和 排序方法
hive数据模型中包含内部表、外部表、分区表和桶表。一、内部表内部表也称为管理表。因为这种表,Hive会或多或少地空值数据的生命周期。Hive默认情况下回将这些表的数据存储在由配置项hive.metastore.warehouse.dir所定义的目录(比如/user/hive/warehouse)的子目录下。如果我有一个表test,那么在HDFS中会创建/user/hive/wareh...原创 2018-03-09 17:00:07 · 1916 阅读 · 0 评论 -
【机器学习】数据预处理 整理
加深理解数据挖掘概念及数据的一些理论内容,会让你对数据有直观的认识,保持清晰的目的性,在之后的数据挖掘工作中如鱼得水。数据挖掘到底是啥?官方定义,在大型数据存储库中,自动地发现有用信息的过程。数据挖掘的一般过程: 1、 数据预处理 2、 数据挖掘 3、 后处理1、预处理。通常数据挖掘需要较大的数据量,这些数据可能格式不同,存在缺失值或无效值,即是数据清洗处理这些‘脏’数据。...原创 2018-02-28 10:21:03 · 2163 阅读 · 0 评论 -
大数据抽样- 概率抽样,随机采样
在统计学中,抽样(Sampling)是一种推论统计方法,是指从目标总体(Population,或称为母体)中抽取一部分个体作为样本(Sample),通过观察样本的某一或某些属性,依据所获得的数据对总体的数量特征得出具有一定可靠性的估计判断,从而达到对总体的认识。概率抽样方法简单随机抽样(simple random sampling),也叫纯随机抽样。从总体N个单位中随机地抽取n个单位作为样...原创 2018-02-26 11:29:58 · 20697 阅读 · 0 评论 -
横截面数据、时间序列数据、面板数据
面板数据(Panel Data)是将“截面数据”和“时间序列数据”综合起来的一种数据类型。具有“横截面”和“时间序列”两个维度,当这类数据按两个维度进行排列时,数据都排在一个平面上,与排在一条线上的一维数据有着明显的不同,整个表格像是一个面板,所以称为面板数据(Panel Data)。实际上如果从数据结构内在含义上,应该把Panel Data称为“时间序列-截面...原创 2018-03-20 15:12:40 · 141932 阅读 · 3 评论 -
MDRCA 算法 - 多维智能监控实现思路
作者丨吴树生:腾讯高级工程师,负责SNG大数据监控平台建设。近十年监控系统开发经验,具有构建基于大数据平台的海量高可用分布式监控系统研发经验。导语:监控数据多维化后,带来新的应用场景。SNG的哈勃多维监控平台在完成大数据架构改造后,尝试引入AI能力,多维根因分析是其中一试点,用于摸索AI的应用经验。本分分享探索过程和经验,希望可给后续AI应用提供参考。前言在2015年构建多维监控平...转载 2018-03-09 17:08:38 · 5988 阅读 · 1 评论