算法,存储,大数据
水木流年追梦
清华大学计算机研究生,专研算法工程
展开
-
Mahout的一些推荐算法
Mahout推荐算法分为以下几大类GenericUserBasedRecommender算法:1.基于用户的相似度2.相近的用户定义与数量特点:1.易于理解2.用户数较少时计算速度快 GenericItemBasedRecommender算法:1.基于item的相似度特点:1.item较少时就算原创 2017-09-30 10:49:33 · 1091 阅读 · 0 评论 -
大数据Hive深入讲解
大数据Hive简介,Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。Hive组件Hive安装编辑hive-site.xmlcp conf/hive-default.xml.template conf/hive-site.xml• 配置hive的log4j: cp conf/hive-log4j.properties.template co...原创 2019-04-15 10:15:17 · 412 阅读 · 0 评论 -
HBase入门
HBASE是一个数据库----可以提供数据的实时随机读写HBASE与mysql、oralce、db2、sqlserver等关系型数据库不同,它是一个NoSQL数据库(非关系型数据库)Hbase的表模型与关系型数据库的表模型不同: Hbase的表没有固定的字段定义; Hbase的表中每行存储的都是一些key-value对 Hbase的表中有列族的划分,用户可以指定将哪些kv插入哪个列族...原创 2019-04-14 12:54:52 · 408 阅读 · 0 评论 -
zookeeper详解
zookeeper的基本功能和应用场景zookeeper的整体运行机制zookeeper的数据存储机制zookeeper中对用户的数据采用kv形式存储只是zk有点特别:key:是以路径的形式表示的,那就以为着,各key之间有父子关系,比如/ 是顶层key用户建的key只能在/ 下作为子节点,比如建一个key: /aa 这个key可以带value数据也可以...原创 2019-04-14 12:44:49 · 374 阅读 · 0 评论 -
yarn深入理解
yarn的基本概念yarn是一个分布式程序的运行调度平台yarn中有两大核心角色:Resource Manager接受用户提交的分布式计算程序,并为其划分资源管理、监控各个Node Manager上的资源情况,以便于均衡负载 2.Node Manager管理它所在机器的运算资源(cpu + 内存)负责接受Resource Manager分配的任务,创建容...原创 2019-04-14 12:36:18 · 391 阅读 · 0 评论 -
Spark-on-YARN
官方文档http://spark.apache.org/docs/latest/running-on-yarn.html配置安装安装hadoop:需要安装HDFS模块和YARN模块,HDFS必须安装,spark运行时要把jar包存放到HDFS上。 安装Spark:解压Spark安装程序到一台服务器上,修改spark-env.sh配置文件,spark程序将作为YARN的客户端用于...原创 2019-04-14 12:30:38 · 253 阅读 · 0 评论 -
Spark集群安装
准备两台以上Linux服务器,安装好JDK上传spark-安装包到Linux上解压安装包到指定位置进入到Spark安装目录进入conf目录并重命名并修改spark-env.sh.template文件在该配置文件中添加如下配置export JAVA_HOME=/usr/java/jdk1.8.0_111#export SPARK_MASTER_IP=node1...原创 2019-04-14 12:16:10 · 193 阅读 · 0 评论 -
Spark简介
什么是sparkSpark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数...原创 2019-04-14 12:08:48 · 275 阅读 · 0 评论 -
安装hdfs集群的具体步骤
一、首先需要准备N台linux服务器学习阶段,用虚拟机即可!先准备4台虚拟机:1个namenode节点 + 3 个datanode 节点二、修改各台机器的主机名和ip地址主机名:hdp-01 对应的ip地址:192.168.33.61主机名:hdp-02 对应的ip地址:192.168.33.62主机名:hdp-03 对应的ip地址:192.168.33.63主...原创 2019-04-14 10:05:44 · 446 阅读 · 0 评论 -
大数据Hadoop原理学习(HDFS,MAPREDUCE,YARN)
hadoophadoop中有3个核心组件:分布式文件系统:HDFS —— 实现将文件分布式存储在很多的服务器上分布式运算编程框架:MAPREDUCE —— 实现在很多机器上分布式并行运算分布式资源调度平台:YARN —— 帮用户调度大量的mapreduce程序,并合理分配运算资源hdfs整体运行机制hdfs:分布式文件系统hdfs有着文件系统共同的特征:有目录结构,...原创 2019-04-14 10:03:53 · 542 阅读 · 0 评论 -
程序员面试-并发大数据分布式
并发编程多任务同步编程原语volatile关键字大数据hadoop包含组件及功能Map/Reduce相关名词解释WordCount流程示意图分布式分布式存储架构设计(以TFS为例)消息中间件...原创 2019-04-15 10:16:04 · 359 阅读 · 0 评论