数据分析
文章平均质量分 75
数据分析技术,以及大数据平台相关技术
答案Xstar
这个作者很懒,什么都没留下…
展开
-
【MongoDB】Sharding分片概念及原理
面对海量的数据,如何提升数据读写效率?了解过DB的应该都知道数据库的分区,分区是主要提升数据查询的效率。面对海量数据的IO能力限制以及扩展性,Sharding是一个利器,我们不用关心具体的实现,从而实现性能的提升。Sharding不是一门技术,而是一个理念,解决数据的水平扩展,突破单节点的IO限制。很多成熟的NoSQL以及NewSQL就自带了sharding实现,使用者直接指定需要分片的字段,集群...原创 2018-07-02 10:34:53 · 6030 阅读 · 0 评论 -
【数据分析】决策树案例详解
文章来源:公众号-智能化IT系统。初识决策树决策树是一个类似于人们决策过程的树结构,从根节点开始,每个分枝代表一个新的决策事件,会生成两个或多个分枝,每个叶子代表一个最终判定所属的类别。例如,如下是一个决策树,代表薪水大于30W的男性会买车。我们可以很容易的写出IF Else来实现决策树的判定。上述的决策树有两个特征区间,性别和年龄,最终的结果有两个类别,买和不买。决策树流程我们在实际的大数据分析...原创 2018-06-20 14:28:51 · 32385 阅读 · 4 评论 -
【数据分析】线性回归与逻辑回归
文章来源:公众号-智能化IT系统。回归模型有多种,一般在数据分析中用的比较常用的有线性回归和逻辑回归。其描述的是一组因变量和自变量之间的关系,通过特定的方程来模拟。这么做的目的也是为了预测,但有时也不是全部为了预测,只是为了解释一种现象,因果关系。还是按照老风格,不说空泛的概念,以实际的案例出发。还是先前的案例,购房信息,我们这次精简以下,这8位购房者我们只关注薪水和年龄这两个因素,信息如下:用户...原创 2018-06-21 13:54:40 · 6052 阅读 · 0 评论 -
【数据分析】贝叶斯原理
文章来源:公众号-智能化IT系统。贝叶斯的原理类似于概率反转,通过先验概率推导出后验概率。其公式如下:在大数据分析中,该定理可以很好的做推导预测,很多电商以及用户取向可以参照此方式,从已有数据推导出未知数据,以归类做后续操作。例如,在一个购房机构的网站,已有8个客户,信息如下:用户ID年龄性别收入婚姻状况是否买房127男15W否否247女30W是是332男12W否否424男45W否是545男30W...原创 2018-06-22 09:37:01 · 9412 阅读 · 5 评论 -
【Hadoop应用案例】针对运营商支付业务的渠道推荐系统
一. 所用技术:模块技术用途大数据平台hadoop记录每日分析数据,并运行MR算法分析结果数据库SQL Server存储业务数据,以及计算结果数据开发语言javaMR算法,以及数据抽取和接收服务C#大数据后台管理站点ShellMR脚本定时执行大数据分析算法贝叶斯数据分析 二. 背景目前大部分支付业务,涉及到大数据分析的主要是针对C端用户的支付行为进行分析。而基于运营商支付的业务,会涉及到众多的支付...原创 2018-06-26 10:21:51 · 4443 阅读 · 0 评论 -
Hadoop冷热数据转换工具Sqoop
Sqoop是Apache基金下的开源项目,目的是完成关系数据库和Hadoop的转化,实现双向导入。通常的大型数据系统使用之实现较少,主要原因是因为其在CDH3才开始支持,而且该方式是通过JDBC驱动,将数据库进行读取,并将数据转换至HDFS文件,通常会影响热数据的使用。但是做为日常工作,需要转换时,还是会提供一些方便。CDH3版本的Sqoop已经默认安装了,其构建在MapReduce之上,不同于直...原创 2018-06-29 11:32:29 · 3953 阅读 · 0 评论