大数据
文章平均质量分 93
闲云野鹤01
沟通邮箱xiaosongcsdn@163.com
展开
-
大数据组件图
原创 2019-12-18 11:36:18 · 446 阅读 · 0 评论 -
mahout介绍
Mahout案例运行Mahout自带的Kmeans算法,同时验证安装的Mahout是否能正常运行 准备测试集。下载文件synthetic control.data(下载地址http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data )并把这个文件放在MAHOUT_HOME目录下的synth...原创 2019-09-28 21:46:53 · 1490 阅读 · 0 评论 -
mahout图书推荐
原创 2019-09-28 21:47:47 · 214 阅读 · 0 评论 -
Mahout tester框架
Tester介绍Mahout是Apache下的一个Java语言的开源大数据机器学习项目,与其他机器学习项目不同的是,他的算法多事是MapReduce方式,可以在Hadoop上运行,并行处理大规模数据。协同过滤是在mahout里是由一个叫taste的引擎提供的,提供两种模式一种是以jar包形式嵌入到程序里面在进程内运行,另外一种是MapReduce形式在Hadoop上运行。这两种形式使...原创 2019-09-28 21:48:34 · 264 阅读 · 0 评论 -
Mahout k-means
Mahout 源码编译 下载mahout源码包www.apache.org mahout/0.9/scr.ziphttp://mirror.bit.edu.cn/apache/mahout/转化为eclipse工程 mvn eclipse:eclipse 导入eclipse里面k-means介绍 是一种基于划分的聚类方法,思想是:以空间中K个点为中心进行聚类,对靠...原创 2019-09-28 21:49:11 · 238 阅读 · 0 评论 -
Mahout bayes
Mahout bayes贝叶斯公式贝叶斯统计作为常用的基础算法,其在机器学习中是占据重要的一席之地。尤其是在数据处理方面,针对事件发生的概率以及事件可信度分析上具有良好的分类效果。现在在疾病诊断、安全监控、质量控制、安全部门的招募、药剂检测等方面有重要的方面。贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因(即大事件A已经发生的条件下,分割中的小事件Bi的概率),设B1,B2,...原创 2019-09-28 21:49:47 · 150 阅读 · 0 评论 -
Windows平台安装配置Hadoop
Windows平台安装配置Hadoop步骤:1. JDK安装(不会的戳这)2. 下载hadoop2.5.2.tar.gz3. 下载hadooponwindows-master.zip【能支持在windows运行hadoop的工具】一、 安装hadoop2.5.2下载hadoop2.5.2.tar.gz,并解压到你想要的目录下,我放在D:\dev\hadoop-2.5.2...原创 2019-09-28 21:52:21 · 564 阅读 · 1 评论 -
大数据技术Hadoop1.0
大数据技术Hadoop1.0 HDFS:Name Node、Data Node Hbase:Master/Region Server MapReduce:Job/Task Tracker Hive: Pig,Sqoop Oozie:ZooKeeperHadoop2.0HDFS,HBase, MapReduceYA...原创 2019-09-28 21:54:29 · 205 阅读 · 0 评论 -
分布式服务框架 Zookeeper(笔记)
简介:Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。本文将从使用者角度详细介绍 Zookeeper 的安装和配置文件中各个配置项的意义,以及分析 Zookeeper 的典型的应用场景(配置文件的管理、集群管理、同步锁、Leader 选举、队...原创 2019-09-28 21:57:35 · 92 阅读 · 0 评论 -
zookeeper 运维管理 (笔记)
部署本章节主要讲述如何部署ZooKeeper,包括以下三部分的内容:1. 系统环境2. 集群模式的配置3. 单机模式的配置系统环境和集群模式配置这两节内容大体讲述了如何部署一个能够用于生产环境的ZK集群。如果仅仅是想在单机上将ZK运行起来,进行一些开发与测试,那么第三部分或许是你的菜。 系统环境 平台支持 平 台 运行client...原创 2019-09-28 21:58:25 · 179 阅读 · 0 评论 -
zookeeper集群安装(笔记)
Linux/OS X下:1 install1.1) 建立安装目录mkdir -p /local/software/zookeeper/cd/local/software/zookeeper/1.2) 下载压缩包curl -O http://apache.oss.eznetsols.org/hadoop/zookeeper/zookeeper-3.3.1/zookeep...原创 2019-09-28 21:59:36 · 1101 阅读 · 0 评论 -
使用Docker在本地搭建Hadoop分布式集群
学习Hadoop集群环境搭建是Hadoop入门必经之路。搭建分布式集群通常有两个办法: 要么找多台机器来部署(常常找不到机器) 或者在本地开多个虚拟机(开销很大,对宿主机器性能要求高,光是安装多个虚拟机系统就得搞半天……)。那么,问题来了!有没有更有可行性的办法?提到虚拟化,Docker最近很是火热!不妨拿来在本地做虚拟化,搭建Hadoop的伪分布式集群环境。虽然有点大...原创 2019-09-29 09:44:00 · 461 阅读 · 0 评论 -
spark mllib库 进行电影聚类分析(Scala语言)
实验镜像:下载链接:https://pan.baidu.com/s/15Fc1L3iJEcbXo7SVW9mTfg提取密码:iaom用户名:c205,密码:一个空格root密码:一个空格Spark 机器学习库简介Spark 机器学习库提供了常用机器学习算法的实现,包括聚类,分类,回归,协同过滤,维度缩减等。使用 Spark 机器学习库来做机器学习工作,可以说是非常的简单,通...原创 2019-06-11 13:24:39 · 2536 阅读 · 0 评论 -
centos-docker-hadoop-spark
1.1.1 安装Dockercurl -sSL https://get.docker.com/ | sh1.1.2 配置Docker加速器和开机启动服务这里需要注册一个阿里云账号,每个账号有自己专属的加速器,专属加速器的地址,根据自己的地址配。sudo cp -n /lib/systemd/system/docker.service /etc/systemd/system/dock...原创 2019-04-23 14:21:24 · 963 阅读 · 0 评论 -
CentOS开发环境搭建
安装系统新建虚拟机选择“自定义(高级)”,并点击【下一步】选择虚拟机硬件兼容性,并点击【下一步】选择“稍后安装操作系统”,并点击【下一步】选择操作系统版本,并点击【下一步】命名虚拟机,可任意路径,并点击【下一步】配置处理器,并点击【下一步】设置虚拟机内存大小,并点击【下一步】选择“使用网络地址转换(NAT)”,并点击【下一步】选择“LSI L...原创 2019-01-22 09:50:45 · 207 阅读 · 0 评论 -
JDK1.8在LINUX下安装步骤
JDK1.8在LINUX下安装步骤:在/usr/lib/目录下新建jvm文件夹,如果已有jvm文件夹,则将之前的JDK版本删除,即在jvm目录下执行命令:rm –rf * 将JDK文件jdk-8u40-linux-x64.gz拷贝到/home/目录下; 在/home/目录下执行命令:tar zxvf ./jdk-8u40-linux-x64.gz -C /usr/lib/jvm (注意...原创 2019-01-22 09:51:37 · 689 阅读 · 0 评论 -
设置共享文件夹
点击【编辑虚拟机设置】-【选项】-【共享文件夹】,选择“总是启用”添加要共享的文件夹,点击【添加】点击【确定】,并重启系统原创 2019-01-22 09:52:59 · 190 阅读 · 0 评论 -
安装VMware Tools
单击工具栏中“虚拟机”,选择“安装VMware Tools”,VMware Tools提供外部操作系统和虚拟机中的操作系统之间的相互操作,粘贴复制、文件拖动等功能点击“使用文件打开”双击“VMwareTools-10.0.6-3595377.tar.gz”,并点击【提取】选择提取路径,点击【提取】提取完成,点击【显示文件】打开“vmware-tools-distrib...原创 2019-01-22 09:54:31 · 304 阅读 · 0 评论 -
CentOS搭建JDK开发环境
创建/usr/java目录,拷贝安装包右键选择“打开终端”,输入命令“tar -zxvf jdk-8u102-linux-x64.tar.gz”,并按【回车键】解压完成设置环境变量vi /etc/profile export JAVA_HOME=../jdk export PATH=$PATH:$JAVA_HOME/bin...原创 2019-01-22 09:56:33 · 166 阅读 · 0 评论 -
安装Hadoop的伪分布式
给一个可执行的权限:chmod u+x hadoop-2.7.1.tar.gz 配置环境,如图:Vi /etc/profile使文件生效:source /etc/profile修改4个配置文件,分别是core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml(Hadoop-env.sh、yarn-env.sh)...原创 2019-01-22 09:58:10 · 121 阅读 · 0 评论 -
克隆虚拟机
1、2、3、4、5、vi /etc/udev/rules.d/70-persisitent-net.rules把“eth0”删掉 “eth1”改成“eth0”6、修改IP地址Vi etc/sysconfig/network-scripts/ifcfg-eth0也要修改MAC地址7、修改主机名:Vi /etc/sysconfig/netw...原创 2019-01-22 09:59:49 · 173 阅读 · 0 评论 -
安装Hadoop集群
修改主机名:Vi /etc/sysconfig/networkRebootIP与主机映射Vi /etc/hosts配置文件修改:Core-site.xml:Core-site.xml: <configuration> <property> <name>fs.defaultFS</name> ...原创 2019-01-22 10:05:25 · 110 阅读 · 0 评论 -
SSH免密码登录
1、cd .ssh/如图:2、ssh-keygen -t rsa 之后4个enter键即生成了秘钥复制Ssh-copy-id root@masterSsh-copy-id root@slave1Ssh-copy-id root@slave2注意:三台机器每台都需要做上述步骤 启动集群前,需要我们格式化集群:Bin/hdfs nameno...原创 2019-01-22 10:07:24 · 144 阅读 · 0 评论 -
基于ambari2.5.0.3+hdp2.5.3的hadoop集群环境搭建图文教程
本文以图文并茂的方式,旨在说明如何在自己的虚拟机上搭建hadoop集群环境,由于环境不同仅供大家参考!一、机器环境详细说明:虚拟机:VirtualBox5.1.28linux系统:centos6.9jdk:Java HotSpot(TM) 64-Bit 1.8.0_152数据库:MySQL5.1ambari:ambari2.5.0.3hdp:hdp2.5.3节点数:4个,关闭所有...转载 2019-03-11 10:37:22 · 620 阅读 · 0 评论 -
centos 设置静态IP
我们的Centos中配置的是NAT+host-only的双网卡网络配置,所以将两个网卡均设置为静态。小伙伴儿们可以根据自己的情况按教程设置即可。关于双网卡的设置实现宿主机和虚拟机互通,并且可以上网的问题,请参考另一篇博文:虚拟机与宿主机网络配置——可互通可上网 1、配置前首先查看系统的双网卡信息,明确各个网卡的名字,通过ifconfig命令查看:网卡1:eth0,ip为10.0.2.8。...转载 2019-03-11 10:38:38 · 152 阅读 · 0 评论 -
VMware-workstation安装
下载VMware-workstation并运行 进入安装界面,点击【下一步】选择“我接受许可协议中的条款”, 点击【下一步】选择“增强型键盘驱动程序”, 点击【下一步】点击【下一步】继续【下一步】点击【安装】等待安装完成点击【许可证】输入密钥,并点击【输入】安装完成,点击【完成】运行VMware...原创 2019-01-22 09:46:31 · 148 阅读 · 0 评论