- 博客(6)
- 资源 (14)
- 收藏
- 关注
原创 数据挖掘基本知识
背景 数据挖掘解决的商业问题 客户流失分析 交叉销售 欺诈检测 风险管理 客户细分 广告定位 销售预测 数据挖掘的任务 分类 基于一个可预测属性把事例分成多个类别。有目标的数据挖掘算法称为有监督的算法。典型的分类算法有决策树算法、神经网络算法和贝叶斯算法。 例子:是否上大学事例重要属性:IQ、性别、父母收入、父母教育程度通过这些属性与上大学构建模型,通过这个模型就能预测下一个...
2017-08-06 16:32:04 4936
原创 spark-2.2.0 集群安装部署以及hadoop集群部署
Spark在生产环境中,主要部署在安装Linux系统的集群中。在linux系统中安装Spark需要预先安装JDK、Scala等所需要的依赖。 由于Spark是计算框架,所以需要预先在集群内有搭建好存储数据的持久化层,如HDFS、Hive、Cassandra等,最后可以通过启动脚本运行应用。 1.安装JDK OracleJDK下载地址:http://www.oracle.com/techne...
2017-08-05 14:32:40 5107
原创 分布式ZooKeeper-3.4.10集群安装
ZooKeeper是一个为分布式应用所设计的开源协调服务,其设计目的是为了减轻分布式应用程序所承担的协调任务。它可以为用户提供同步、配置管理、分组和命名等服务。 jstorm需要zk配合使用,记录安装文档。 一、基础环境: JDK :1.8.0_65(要求1.6+) ZooKeeper:3.4.10 主机数:3(要求3+,且必须是奇数,因为ZooKeeper的选举算法) 主机名...
2017-08-02 15:34:52 2100
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人