【大数据的学路历程】
文章平均质量分 82
本专栏主要讲解大数据学习中容易遇到的问题,以及如何将大数据技术应用到项目中。
xl.zhang
熟悉JAVA的WEB编程、大数据编程和分布式机器学习。
展开
-
Linux-centos下 更换阿里云镜像
1. 更换阿里云镜像1)备份mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup2)下载新的CentOS-Base.repo 到/etc/yum.repos.d/CentOS 5 wget -O /etc/yum.repos.d/CentOS-Base.repo ht...原创 2019-05-29 22:05:08 · 7439 阅读 · 0 评论 -
Flink(一):基本原理及应用场景分析
一、Flink简介 Apache Flink 是一个开源的分布式,高性能,高可用,准确的流处理框架。 主要由 Java 代码实现。 支持实时流(stream)处理和批(batch)处理,批数据只是流数据的一个极限特例。 Flink原生支持了迭代计算、内存管理和程序优化。 二、Flink特性三、Flink架构图四、Flink...原创 2019-07-23 23:53:49 · 2084 阅读 · 0 评论 -
基于MapReduce实现物品协同过滤算法(ItemCF)
一、背景电子商务网站是个性化推荐系统重要地应用的领域之一,亚马逊就是个性化推荐系统的积极应用者和推广者,亚马逊的推荐系统深入到网站的各类商品,为亚马逊带来了至少30%的销售额。二、ItemCF简介基于item的协同过滤,通过用户对不同item的评分来评测item之间的相似性,基于item之间的相似性做出推荐。简单来讲就是:给用户推荐和他之前喜欢的物品相似的物品。如下说明:注:基于物品的协同过滤算法...原创 2018-05-17 17:36:40 · 14995 阅读 · 2 评论 -
基于Spark2.x新闻网大数据实时分析可视化系统项目
本次项目是基于企业大数据经典案例项目(大数据日志分析),全方位、全流程讲解 大数据项目的业务分析、技术选型、架构设计、集群规划、安装部署、整合继承与开发和web可视化交互设计。项目代码托管于github,大家可以自行下载。一、业务需求分析捕获用户浏览日志信息实时分析前20名流量最高的新闻话题实时统计当前线上已曝光的新闻话题统计哪个时段用户浏览量最高二、系统架构图设计三、系统数据流程设计四、集群资源...原创 2018-05-03 20:05:20 · 76137 阅读 · 173 评论 -
基于Spark的电影推荐系统(包含爬虫项目、web网站、后台管理系统以及spark推荐系统)
本次项目是基于大数据过滤引擎的电影推荐系统–“懂你”电影网站,包含了爬虫、电影网站(前端和后端)、后台管理系统以及推荐系统(Spark)。项目代码托管于github,大家可以自行下载。一、爬虫开发环境: pycharm + python3.6软件架构: mysql + scrapy运行环境: 本次爬取的内容在外网,所以需先翻墙后才能成功运行。项目架构:二...原创 2018-04-19 16:06:31 · 75243 阅读 · 41 评论 -
基于分布式的云笔记实现(参考某道云笔记)
注: 1)云笔记代码可在github上下载,如果对您有用,记得star一下。 2)依赖jar包可在以下地址下载jar包,密码:yvkj,放到web/lib下即可 3)hdfs配置参考网址 4)redis配置参考网址一、产品简述云笔记是在吸收了多年的运营数据,经过精确的大数据分析指导需求模型的建立从而实现的,云笔记通过大数据分布式存储解决方案解决了...原创 2018-01-20 23:28:04 · 31634 阅读 · 4 评论 -
linux下安装hadoop3.0(全分布式)
一、hadoop3.x的新特性1. Java版本需要1.82. Shell脚本已部分重写(Shell script rewrite)3. HDFS新特性支持可删除编码(Erasure Coding)使用EC来替代副本机制,可省略大约50%的存储空间,此时副本个数为1就行 支持两个及以上的namenode(即一个namenode与多个datanode) datanode数据写入平...原创 2019-03-04 15:12:57 · 5290 阅读 · 0 评论 -
Linux-centos下 Spark2.X环境准备、编译部署及运行
1. Spark概述 Spark 是一个用来实现快速而通用的集群计算的平台。 在速度方面,Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。 在处理大规模数据集时,速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作,否则我们每次操作就需要等待数分钟甚至数小时。 Spark 的一个主要特点就是能够在内存中进行计...原创 2018-05-03 15:24:27 · 2226 阅读 · 1 评论 -
Spark2.X 分布式弹性数据集
1. 三大弹性数据集介绍1)概念2)优缺点对比2. Spark RDD概述与创建方式1)概述 在集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(resilientdistributed dataset,RDD),它是逻辑集中的实体,在集群中的多台机器上进行了数据分区。RDD是Spark的核心数据结构,通过RDD的依赖关系形成Spark的调度顺序。 通过对RDD的操作形成整个Sp...原创 2018-05-03 15:56:02 · 1685 阅读 · 0 评论 -
linux下安装spark三种模式
环境准备 三台虚拟机:spark1,spark2,spark3 三台虚拟机已经实现免密码登录一、配置local单机模式(spark1中,解压即可用) 1.上传至linux(以spark-1.6.1-bin-hadoop2.6.tgz为例) 2.解压jar 包 [root@spark1 soft]# tar -zxvf spark-1.6.1-bin-hado...原创 2018-02-27 01:28:24 · 8650 阅读 · 2 评论 -
linux下Spark SQL与hive hbase mysql集成
虚拟机环境:centos6下述软件版本依自己本机版本相应修改一、Spark SQL 与Hive集成(spark-shell)1.需要配置的项目 1)将hive的配置文件hive-site.xml拷贝到spark conf目录,同时添加metastore的url配置。 执行操作: vi hive-site.xml,添加如下内容:<property> <name...原创 2018-02-28 09:54:19 · 7289 阅读 · 0 评论 -
linux下安装kafka(单节点与分布式模式)
环境准备 三台虚拟机:spark1,spark2,spark3 三台虚拟机已经实现免密码登录 三台虚拟机已经搭建zookeeper一、搭建kafka单节点模式(在spark1中搭建) 1.上传kafka至服务器(以kafka_2.11-0.10.1.0.tgz为例) 2.解压 [root@spark1 soft]# tar -zxvf kafka_2.1...原创 2018-03-08 11:11:20 · 5404 阅读 · 1 评论 -
Linux-centos下安装hue可视化以及与hdfs、hive、hbase和mysql的集成
1. Hue概述及版本下载1)概述 Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。2)下载 ...原创 2018-05-03 14:30:44 · 4082 阅读 · 1 评论 -
linux下安装zookeeper(Standalone与Distributed模式)
环境准备 三台虚拟机:spark1,spark2,spark3 三台虚拟机已经实现免密码登录一、搭建zookeeper的Standalone(单机)模式,在spark1上搭建。 1.向服务器上传zookeeper-3.4.6.tar.gz(版本自行选择),或通过wget下载 [root@spark1 soft]# wget http://mirrors.cn...原创 2018-03-08 10:28:58 · 7221 阅读 · 1 评论 -
Linux-centos下安装hbase
一、Hbase简介 HBase是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用Hbase技术可在廉价PC Server上搭建 大规模结构化存储集群。 HBase 是Google Bigtable 的开源实现,与Google Bigtable 利用GFS作为其文件存储系统类似, HBase 利用Hadoop HDFS 作为其文件存储系统;Google 运行Map...原创 2018-05-02 21:04:00 · 4205 阅读 · 0 评论 -
linux下flume安装
1.1 运行机制1、 Flume分布式系统中最核心的角色是agent,flume采集系统就是由一个个agent所连接起来形成2、每一个agent相当于一个数据传递员,内部有三个组件: a) Source:采集源,用于跟数据源对接,以获取数据 b) Sink:下沉地,采集数据的传送目的,用于往下一级agent传递数据或者往最终存储系统传递数据 c) Channel:angent内部...原创 2018-04-19 10:22:25 · 9085 阅读 · 0 评论 -
linux下hive三种方式的安装
本次以apache-hive-1.2.1-bin.tar.gz为例服务器node5192.168.13.135服务器node6192.168.13.136服务器node7192.168.13.137服务器node8192.168.13.138一、配置本地内置derby模式1.上传hive至linux上(/opt/sxt/soft)2.解压tar -zxvf apache-hive-1.2.1-bi...原创 2017-09-23 09:54:30 · 7081 阅读 · 1 评论 -
linux下安装高可用hdfs以及基于yarn资源管理框架
一、安装高可用hdfs1.安装配置zookeeper(选三台服务器,node5,6,7)1)将zookeeper拷贝至linux的/home下,并解压tar -zxvf zookeeper-3.4.6.tar.gz2)创建并修改zoo.cfg vi conf/zoo.cfg 内容为: tickTime=2000 dataDir=/opt/zookeeper c...原创 2017-09-10 15:10:02 · 6927 阅读 · 0 评论 -
linux下搭建单机版hdfs和yarn框架
在本地搭建hadoop环境时,如果搭建集群模式下的hdfs和yarn则占用资源较多,会影响到自己电脑的性能。下面介绍如何搭建单机版hdfs和yarn。 虚拟机采用cenos6镜像,准备三台虚拟机: spark1,spark2,spark3,其中 spark1 作为 namenode、secondary namenode、 datanode 和 r...原创 2018-02-26 16:00:00 · 6880 阅读 · 0 评论 -
linux下安装hadoop分布式文件系统hdfs
一、环境准备服务器四台:node5:192.168.13.135 node6:192.168.13.136 node7:192.168.13.137 node8:192.168.13.138二、基本介绍1. 分布式存储系统HDFS (Hadoop Distributed File Sy...原创 2017-09-10 14:35:28 · 4905 阅读 · 0 评论 -
linux下hadoop集群常用命令
1.上传文件 1)hadoop fs -put words.txt /path/to/input/ 2)hdfs dfs -put words.txt /path/wc/input/2.获取hdfs中的文件 hadoop fs -get /path/wc/input/words.txt3.合并下载多个文件 hadoop fs -getmerge /path/wc/input...原创 2018-02-28 13:58:56 · 8255 阅读 · 2 评论 -
Linux-centos下安装nginx和tengine
一、nginx安装环境nginx是C语言开发,建议在linux上运行。1)gcc安装nginx需要先将官网下载的源码进行编译,编译依赖gcc环境,如果没有gcc环境,需要安装gcc:yum install gcc-c++ 2)PCREPCRE(Perl Compatible Regular Expressions)是一个Perl库,包括 perl 兼容的正则表达式库。nginx的http模块使用p...原创 2017-09-08 18:11:15 · 5847 阅读 · 0 评论 -
Linux-centos下安装redis及集群
一、redis在Linux上的安装资料:链接:http://pan.baidu.com/s/1gff9mQB 密码:hlxe1)安装redis编译的c环境,yum install gcc-c++2)将redis-3.0.0.tar.gz上传到Linux系统中3)解压到/usr/local下 tar -xvf redis-3.0.0.tar.gz -C /usr/local4)进入redis-3...原创 2017-09-08 18:35:38 · 1593 阅读 · 0 评论 -
Linux-centos下安装lvs+keepalived高可用
一、图示二、简介Lvs(Linux Virtual Server)Ipvs : 嵌入到linux的内核IPVsadm:管理应用程序四种静态:rr:轮循wrr:dh: sh:动态调度方法:lc: 最少连接active*256+inactive谁的小,挑谁wlc: 加权最少连接(active*256+inactive)/weightsed: 最短期望延迟(active+1)*256/weightnq:...原创 2017-09-08 19:53:32 · 3410 阅读 · 0 评论 -
Linux-centos下安装keepalived
1.安装依赖yum -y install kernel-devel*yum -y install openssl-*yum -y install popt-develyum -y install lrzszyum -y install openssh-clients2.安装keepalived(资料:链接:http://pan.baidu.com/s/1i5lANUd 密码:2ji8)2.1.上传...原创 2017-09-08 18:54:15 · 4085 阅读 · 0 评论 -
Linux-centos下安装lvs
1.安装lvs应用模块1、安装依赖包:yum -y install ipvs*2、验证本机ip_vs模块是否加载[root@client lvs]# grep -i 'ip_vs' /boot/config-2.6.32-431.el6.x86_64 CONFIG_IP_VS=m CONFIG_IP_VS_IPV6=y # CONFIG_IP_VS_DEBUG is not set CONFIG_...原创 2017-09-08 19:32:42 · 2408 阅读 · 0 评论 -
linux虚拟机配置免密码登录
本次配置是基于centos6版本。1.设置一台服务器免密码登录本服务器(以node5为例,node5在 /etc/hosts中已经配置好) 1)生成秘钥 [root@node5 ~]# ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 此时会在家目录下生成两个秘钥文件,通过命令 cd ~/.ssh/查看,Id_dsa私钥(自己用...原创 2018-02-25 22:21:41 · 6773 阅读 · 0 评论 -
Linux-centos虚拟机克隆后修改网络配置
本次配置是基于centos6的版本。一般来说,直接克隆虚拟机后,对得到的虚拟机执行 ifconfig,往往显示不出ip地址。这是由于我们还缺少一些配置。配置如下: 1)修改网络地址 (1)编辑文件 vi /etc/sysconfig/network-scripts/ifcfg-eth0 指定启动时运行网络服务:ONBOOT=yes ...原创 2018-02-25 21:58:05 · 3974 阅读 · 0 评论 -
linux下azkaban安装及示例
一、环境准备Azkaban Web服务器:azkaban-web-server-2.5.0.tar.gzAzkaban执行服务器 :azkaban-executor-server-2.5.0.tar.gzAzkaban脚本文件:azkaban-sql-script-2.5.0.tar.gz目前azkaban只支持 mysql,需安装mysql服务器,本文档中默认已安装好mysql服务器,并建立了 ...原创 2017-09-23 10:27:07 · 6286 阅读 · 0 评论 -
Linux-centos下安装lvs+keepalived+nginx+tomcat
一、如图二、安装tomcat(jdk安装参考http://blog.csdn.net/u011254180/article/details/77893457)一、tar格式的安装(以apache-tomcat-7.0.52.tar.gz为例)1)上传tomcat到linux上2)解压Tomcat到/usr/local下tar -zxvf apache-tomcat-7.0.52.tar.gz -C...原创 2017-09-08 20:08:01 · 4512 阅读 · 0 评论 -
Linux-centos下安装mysql
首先,需要查看当前Linux系统是否已经安装mysql(后续安装要注意linux的版本自觉选择软件版本)1)查看CentOS自带的mysql 输入 rpm -qa | grep mysql 2)将自带的mysql卸载一、rpm格式的安装(以MySQL-5.6.22-1.el6.i686.rpm-bundle.tar为例,解压开为rpm文件)软件...原创 2017-09-08 13:29:34 · 4284 阅读 · 0 评论 -
Linux-centos下安装jdk
首先,需要查看当前Linux系统是否已经安装java(后续安装要注意linux的版本自觉选择软件版本)1)输入 rpm -qa | grep java 2)卸载两个openJDK 一、rpm格式的安装(以jdk-7u79-linux-x64.rpm为例)1)上传jdk到linux2)使用命令rpmrpm -ivh jdk-7u79-linux-x64.rpm注:rpm格...原创 2017-09-08 13:04:01 · 1305 阅读 · 0 评论 -
CentOS6.5在VMware10中安装
按照图示步骤完成在VMware中安装CentOS软件:链接:http://pan.baidu.com/s/1miHYDVM 密码:lrjc1.启动VMware的画面2.点击File--->New Virtual Machine 创建一台新虚拟机3.在弹出框中选择典型安装4.选择I will install the operating system later.(稍后安装系统)5.选择引导系统...原创 2017-09-07 20:36:22 · 1320 阅读 · 0 评论 -
虚拟软件VMware
一、什么是虚拟软件:虚拟原件是一个可以使你在一台机器上同时运行二个或更多Windows、LINUX等系统。它可以模拟一个标准PC环境。 这个环境和真实的计算机一样,都有芯片组、CPU、内存、显卡、声卡、网卡、软驱、硬盘、光驱、串口、并口、USB控制器等二、常用的虚拟原件:1.VMware workstation2.VirtualBox三、VMware workstation安装:(...原创 2017-09-07 20:02:25 · 1463 阅读 · 0 评论