大数据
fg19941101
这个作者很懒,什么都没留下…
展开
-
大数据学习-linux章--- (一) linux概述
大数据学习-linux章(一) linux概述1.1. 简介Linux是一个自由的,免费的,源码开放的操作系统 。也是开源软件中最著名的例子。其最主要的目的就是为了建立不受任何商品化软件版权制约的,全世界都能使用的类Unix兼容产品.而我们将服务器部署在Linux将会更加的稳定、安全、高效以及出色的性能这时windows无法比的。1.2.Linux作者林纳斯·本纳第克特·托瓦兹(Lin...原创 2018-12-27 20:45:05 · 283 阅读 · 1 评论 -
大数据学习-linux章---安装CentOS 6
安装CentOS 61.新建虚拟机2. 配置虚拟机3. 注意原创 2018-12-28 13:43:34 · 340 阅读 · 0 评论 -
大数据学习-linux章---(二) 环境准备
大数据学习-linux章#(二) 环境准备2.1. Vmware2.1.1 Vmware简介大多数服务器的容量(CPU,内存,磁盘等)利用率不足 30%,这不仅导致了资源浪费,也加大了服务器的数量。实现服务器虚拟化后,多个操作系统可以作为虚拟机在单台物理服务器上运行,并且每个操作系统都可以访问底层服务器的计算资源,从而解决效率低下问题。Vmware虚拟机化技术由此诞生,它可以将一台服务...原创 2018-12-28 17:52:13 · 230 阅读 · 0 评论 -
大数据学习-linux章---(三) 文件系统
大数据学习-linux章(三)文件系统Linux目录结构bin 存放二进制可执行文件(ls,cat,mkdir等) boot 存放用于系统引导时使用的各种文件dev 用于存放设备文件etc 存放系统配置文件home 存放所有用户文件的根目录lib 存放跟文...原创 2018-12-28 20:17:00 · 156 阅读 · 0 评论 -
大数据学习-linux章---虚拟机 克隆及 相关配置
虚拟机 克隆及 相关配置1.克隆2.相关配置2.1.修改ip设置vi /etc/sysconfig/network-scripts/ifcfg-eth02.2.修改hostname设置vi /etc/sysconfig/network2.3.重启虚拟机...原创 2018-12-29 09:51:08 · 595 阅读 · 0 评论 -
大数据学习-linux章---(四) 文件传输
大数据学习-linux章(四)文件传输原创 2018-12-29 17:24:45 · 187 阅读 · 0 评论 -
大数据学习-linux章---(五) 磁盘指令
weqwe原创 2019-01-01 16:03:02 · 607 阅读 · 0 评论 -
大数据学习-linux章---(六) 网络指令
大数据学习-linux章(六) 网络指令1. 查看网络配置信息命令:ifconfig箭头1指的是本机IP,箭头2为广播地址,箭头3位子网掩码2.测试与目标主机的连通性命令:ping remote_ip图代表测试本机和remote_ip主机的网络情况,箭头1表示一共接收到了3个包,箭头2表示丢包率为0,表示两者之间的网络顺畅。注意:linux系统的ping命令会一直发送数据...原创 2019-01-01 17:17:08 · 1098 阅读 · 2 评论 -
大数据学习-Nginx章
大数据学习-Nginx章(一) 产生背景我们在日常生活中会遇见的一些问题:如:大学选课、12306网站、京东、淘宝,大量用户进行访问操作时,出现的故障。主要2大原因:巨大流量—海量的并发访问单台服务器资源和能力有限在海量并发的环境下,用户每一次请求服务器,都需要大量的创建线程,每一次的线程都必须分配资源(CPU、内存、带宽、磁盘IO等),当资源不足的时候就会使得服务器宕机而无法...原创 2019-01-02 22:36:37 · 296 阅读 · 0 评论 -
大数据学习-Hadoop生态章---HDFS完全分布式(1.X版本)搭建及eclipse插件集成
完全分布式搭建(1.x版)一.环境的准备(详情参考Linux章)Linux 环境JDK准备至少3台机器(通过克隆虚拟机;配置好网络JDK 时间 hosts,保证节点间能互ping通)时间同步 (ntpdate time.nist.gov)ssh免秘钥登录 (两两互通免秘钥)二.完全分布式搭建下载解压缩Hadoop配置etc/hadoop/hadoop-en...原创 2019-01-07 22:32:23 · 189 阅读 · 0 评论 -
大数据学习-Hadoop生态章---(一)HDFS
大数据学习-Hadoop生态章(一) Hadoop分布式简介Hadoop是分布式的系统架构,是Apache基金会顶级金牌项目。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。Hadoop的思想之源:来自于Google 03年发布3大论文, GFS、mapreduce、 Bigtable ;Dougcutting用J...原创 2019-01-07 22:33:43 · 322 阅读 · 0 评论 -
大数据学习-Zookeeper
大数据学习-Zookeeper(一) ZookeeperZooKeeper是一个分布式的,开源的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。大部分应用需要开发私有的一个主控、协调器或控制器的协调程序来管理物理分布的子进程(如资源、任务分配等)。而协调程序的反复编写浪费,且难以形成通用、伸缩性好的协调器,所以zookeeper应用...原创 2019-01-13 18:10:36 · 186 阅读 · 1 评论 -
大数据学习-Hadoop生态章---(二) HA高可用
大数据学习-Hadoop生态章(二) HA高可用2.1. Hadoop 2.0产生背景Hadoop 1.0中HDFS和MapReduce在高可用、扩展性等方面存在问题。HDFS存在的问题(如下图):NameNode单点故障,难以应用于在线场景NameNode压力过大,且内存受限,影响系统扩展性MapReduce存在的问题JobTracker访问压力大,影响系统扩展...原创 2019-01-13 18:14:19 · 215 阅读 · 0 评论 -
大数据学习-Hadoop生态章---(三)MapReduce
大数据学习-Hadoop生态章(三) MapReduce3.1.MapReduce是什么?MapReduce是一种分布式的离线计算框架,是一种编程模型,用于大规模数据集(大于1TB)的并行运算。将自己的程序运行在分布式系统上。概念是:"Map(映射)“和"Reduce(归约)”。指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保...原创 2019-01-13 18:16:43 · 204 阅读 · 0 评论 -
大数据学习-Hadoop生态章---TF-IDF及其算法
TF-IDF及其算法概念:TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引...原创 2019-01-08 14:00:29 · 277 阅读 · 0 评论 -
大数据学习-Hadoop生态章---协同过滤算法
协同过滤算法参考:https://www.cnblogs.com/one--way/p/5648165.html(一)基于物品的协同过滤基于物品的协同过滤算法ItemCF基于item的协同过滤,通过用户对不同item的评分来评测item之间的相似性,基于item之间的相似性做出推荐。简单来讲就是:给用户推荐和他之前喜欢的物品相似的物品。用例说明:注:基于物品的协同过滤算法,是目...原创 2019-01-08 20:15:54 · 293 阅读 · 0 评论