2018年03月_CWS_chen

原创【机器学习】Apriori算法详解整理

1、数据挖掘与机器学习有时候，人们会对机器学习与数据挖掘这两个名词感到困惑。如果你翻开一本冠以机器学习之名的教科书，再同时翻开一本名叫数据挖掘的教材，你会发现二者之间有相当多重合的内容。比如机器学习中也会讲到决策树和支持向量机，而数据挖掘的书里也必然要在决策树和支持向量机上花费相当的篇幅。可见二者确有相当大的重合面，但如果细研究起来，二者也的确是各自不同的领域。大体上看，数据挖掘可以视为数据...

2018-03-23 14:50:30 3227

原创【机器学习】Boost算法（GDBT,AdaBoost，XGBoost）整理

Bagging的原理是从现有数据中有放回抽取若干个样本构建分类器，重复若干次建立若干个分类器进行投票。它的典型应用，就是随机森林。现在讨论另一种算法：提升（Boost）。简单地来说，提升就是指每一步我都产生一个弱预测模型，然后加权累加到总模型中，然后每一步弱预测模型生成的的依据都是损失函数的负梯度方向，这样若干步以后就可以达到逼近损失函数局部最小值的目标。下面开始要不说人话了，我们来详...

2018-03-22 15:12:01 2526

原创【机器学习】时序预测Arima & HoltWinters算法及评估方法整理

时序预测（Arima 和 HoltWinters）算法及评估方法整理。spark 库里没有 Spark TimeSeries 时序预测算法，但是国外有人已经写好了相应的算法。https://github.com/sryza/spark-timeseries时间序列分析时间序列，就是按时间顺序排列的，随时间变化的数据序列。生活中各领域各行业太多时间序列的数据了，销售额，顾客数，访问量...

2018-03-21 15:51:58 10078

原创横截面数据、时间序列数据、面板数据

面板数据(Panel Data)是将“截面数据”和“时间序列数据”综合起来的一种数据类型。具有“横截面”和“时间序列”两个维度，当这类数据按两个维度进行排列时，数据都排在一个平面上，与排在一条线上的一维数据有着明显的不同，整个表格像是一个面板，所以称为面板数据(Panel Data)。实际上如果从数据结构内在含义上，应该把Panel Data称为“时间序列-截面...

2018-03-20 15:12:40 140447 3

原创【机器学习】神经网络NeuralNetwork 算法整理

人工神经网络（Artificial Neural Networks，ANN）是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在这种模型中，大量的节点（或称”神经元”，或”单元”）之间相互联接构成网络，即”神经网络”，以达到处理信息的目的。神经网络通常需要进行训练，训练的过程就是网络进行学习的过程。训练改变了网络节点的连接权的值使其具有分类的功能，经过训练的网络就可用于对象的识别。...

2018-03-20 11:09:56 3041 1

转载深入理解分布式事务,高并发下分布式事务的解决方案

1、什么是分布式事务分布式事务就是指事务的参与者、支持事务的服务器、资源服务器以及事务管理器分别位于不同的分布式系统的不同节点之上。以上是百度百科的解释，简单的说，就是一次大的操作由不同的小操作组成，这些小的操作分布在不同的服务器上，且属于不同的应用，分布式事务需要保证这些小操作要么全部成功，要么全部失败。本质上来说，分布式事务就是为了保证不同数据库的数据一致性。2、分布式事务的产生的原因...

2018-03-19 15:34:43 5972

原创简易版用户画像，你需要掌握这3个数据处理方法

衡量用户价值主要有两大维度：忠诚度和消费能力。本文从这两方面进行了简易的用户画像，以此做出用户分析，并告诉大家具体的数据处理方法。一、背景：某电商，已上线并稳定运营了一段时间，积累了一些用户数据。产品及运营想要了解平台用户的价值类型，以便针对性的采取不同运营策略。（以下方法同样适用于广告、SNS等领域，或用以确认内容价值）二、目的：确认用户价值类型，...

2018-03-17 10:54:26 2477

原创【机器学习】最大熵算法整理

最大熵模型由最大熵原理推导实现1.最大熵原理　　最大熵原理认为，学习概率模型时，在所有可能的概率模型（分布）中，熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合，所以，最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。假设离散随机变量X的概率分布式P(X),则其熵是：熵满足下列不等式：式中，|X|是X的取值个数，当且仅当X的分布是均匀分布时右边的等号成...

2018-03-14 15:42:50 8202

转载 MDRCA 算法 - 多维智能监控实现思路

作者丨吴树生：腾讯高级工程师，负责SNG大数据监控平台建设。近十年监控系统开发经验，具有构建基于大数据平台的海量高可用分布式监控系统研发经验。导语：监控数据多维化后，带来新的应用场景。SNG的哈勃多维监控平台在完成大数据架构改造后，尝试引入AI能力，多维根因分析是其中一试点，用于摸索AI的应用经验。本分分享探索过程和经验，希望可给后续AI应用提供参考。前言在2015年构建多维监控平...

2018-03-09 17:08:38 5852 1

原创 Hive数据模型的几种表和窗口函数和排序方法

hive数据模型中包含内部表、外部表、分区表和桶表。一、内部表内部表也称为管理表。因为这种表，Hive会或多或少地空值数据的生命周期。Hive默认情况下回将这些表的数据存储在由配置项hive.metastore.warehouse.dir所定义的目录（比如/user/hive/warehouse）的子目录下。如果我有一个表test，那么在HDFS中会创建/user/hive/wareh...

2018-03-09 17:00:07 1874

CWS_chen