Hadoop
文章平均质量分 73
大数据学习专栏
领尚
hadoop cas openstack python .net ExtJs java linux network
展开
-
学习笔记:从0开始学习大数据-42.综合实训四:Spark+Kafka构建实时分析Dashboard案例
本次实习是学习厦门大学林子雨团队的案例,本来以为容易,结果两天才调试通过,主要是spark的版本不对,调试了好久,最后下载对的版本,才通过,记录一下:教程网址:http://dblab.xmu.edu.cn/post/8274/ Spark课程实验案例:Spark+Kafka构建实时分析Dashboard(免费共享)本案例实现:一、下载数据,测试kafka处理数据1.数据...原创 2020-03-07 11:12:07 · 2770 阅读 · 10 评论 -
学习笔记:从0开始学习大数据-41.综合实训三:网站用户行为分析
本次实验采用厦门大学林子雨教授团队开发的实验课程,在自己已安装的环境走了一遍,总体比较顺利,也遇到一些坑,记录一下,以免重入坑学习网址:http://dblab.xmu.edu.cn/post/7499/ 大数据课程实验案例:网站用户行为分析(免费共享)一、大数据案例-步骤一:本地数据集上传到数据仓库Hive...原创 2020-03-03 15:33:16 · 4814 阅读 · 1 评论 -
学习笔记:从0开始学习大数据-40.sqoop1的安装
前面安装的是sqoop2(sqoop1.99.5),可以正常使用,但还是问题多多,因下一节的综合实训要用到sqoop1,就同时安装了一个。其实,sqoop1的安装特别简单yum install sqoop=======================================================================================...原创 2020-03-03 09:46:13 · 352 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-39.综合实训二:hive+hbase对nginx日志分析
本节实现 nginx日志 ->flume-> hbase ->hive ->file即ngnix数据导入到hbase保存,使用hive创建外表使用sql查询,结果存入本地文件,当然结果也可以存入hdfs,存入文件再导入到mysql,直接通过ufd函数写入mysql,存入另外一个hive表,通过sqoop导入到mysql等,然后,通过网页读取文件生成web图表,但本节只...原创 2020-03-01 20:43:31 · 586 阅读 · 1 评论 -
学习笔记:从0开始学习大数据-38.综合实训一:nginx日志分析
前面的学习大数据运行环境搭建后,可以开始综合实训了,这次比较完整地测试nginx日志大数据分析处理过程。数据处理流程参考如上,因为笔记本电脑限制,all in one,全部在一个虚拟机内完成。虚拟机ip是192.168.49.141,计算机名centos7 .1. nginx日志通过flume导入到hdfs(1) 在flume的conf目录创建新文件nginx-loger.con...原创 2020-02-23 17:11:00 · 483 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-37.数据可视化大屏
数据要转变为决策信息,现在流行通过可视化大屏展示出来,实现大屏设计的软件很多,许多叫做BI(商业智能)软件,以下介绍几款,需要时可以选择使用。1. Echart 是百度很棒的图表工具,适合专业人士,需要编写代码echarts 的官方案例:https://www.echartsjs.com/examples/以下是echarts的案例2. 阿里云DataV阿里云推出的大数...原创 2019-01-28 13:05:50 · 2890 阅读 · 1 评论 -
学习笔记:从0开始学习大数据-36.docker部署zookeeper集群
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,前面安装hbase时,hbase自带了一个zookeeper,现在通过docker在单机部署了hadoop集群,也可以测试一下独立zookeeper集群的安装部署了环境:宿主机centos7,docker容器 hadoop1,hadoop2,hadoop3,都安装了java,已构建了hadoop集群1.下载:http:...原创 2018-12-23 20:06:01 · 332 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-35.docker部署hadoop集群
上节学习安装使用docker,并运行了ubuntu16.04的镜像,本节就在docker的ubuntu16.04镜像容器中创建hadoop三机集群。先启动一个ubuntu16.04的容器:1.修改容器中的下载源:nano sources.listdeb http://mirrors.aliyun.com/ubuntu/ xenial main restricted universe ...原创 2018-12-22 23:24:20 · 492 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-34.hadoop集群准备之docker安装
今天是冬至日,广州冷了几天,阴了几天后,又阳光灿烂,气温升到了25°,阳台外,依然绿树成荫,鸟雀声声,冬眠了几天的乌龟也从角落爬出来伸展四肢晒太阳,这应该是去爬山的好日子,而正在学大数据的我,深感路还漫长,继续爬大数据这座山吧!大数据何常不是一朵信息科学之花呢言归正传,今天要学习的是docker的安装使用。为什么学习大数据要学习docker呢,因为我在学校的电脑是32G内存的,开几个虚...原创 2018-12-22 11:56:33 · 317 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-33.oozie安装部署及运行examples
Oozie是一个工作流引擎服务器,用于运行Hadoop Map/Reduce任务工作流(包括M/R、Pig、Hive、Sqoop等)工作流管理软件有Azkaban、Oozie、Cascading、Hamake等多种引擎可选。1.下载网站: http://oozie.apache.org下载版本是oozie4.3.1.tar.gz2.解压tar -zxvf oozie-4.3.1.t...原创 2018-12-20 12:53:43 · 369 阅读 · 1 评论 -
学习笔记:从0开始学习大数据-32. 错题本(一)
学习过程,会遇到并解决了大量的问题,时间久了,遇到同样问题为了不到处查找,做个笔记很有必要,以后每10个问题一篇日记记录这些解决方法。------------- 1-1 ------------------问题:pig运行mapreduce时不断提示 2018-12-17 21:34:52,737 [main] INFO org.apache.hadoop.ipc.Client - Re...原创 2018-12-17 22:13:32 · 626 阅读 · 1 评论 -
学习笔记:从0开始学习大数据-31. pig安装运行
继续扫盲,今天尝试pig的安装使用Apache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,Pig 可以简化 Hadoop 的使用。使用pig,可以不用编写java程序,用几句简单的命令就处理复杂的java编程才能完成的MapReduce程序1.下载http://pig.ap...原创 2018-12-17 08:46:22 · 285 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-30. solr通过java导入doc,pdf文档建立全文检索
1. eclipse 新建maven项目solr,pom.xml 加入依赖2 在项目下新建类updoctestpackage com.linbin.solr;import java.io.File;import java.io.IOException;import org.apache.solr.client.solrj.SolrClient;import org.apac...原创 2018-12-15 22:17:28 · 980 阅读 · 1 评论 -
学习笔记:从0开始学习大数据-29. solr增加ik中文分词器并导入doc,pdf文档全文检索
环境 centos7,solr7.5.01. 新建core从 solr-7.5.0/example/files/conf 作为配置文件模板,创建core,名为mycore2.下载分词器从https://search.maven.org/search?q=g:com.github.magese 下载 ik-analyzer-7.5.0.jar复制到 solr-7.5.0/...原创 2018-12-14 19:27:18 · 426 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-28. solr存储数据在hdfs并从mysql导入数据
环境 centos7 hadoop2.6.0 solr-7.5.0一、创建hdfs为存储的core1.在hdfs创建索引数据目录[root@centos7 bin]# hadoop fs -mkdir /user/solr/[root@centos7 bin]# hadoop fs -chown linbin /user/solr2. 创建core目录mkdir solr-7...原创 2018-12-14 13:33:06 · 487 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-27. solr安装使用
Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML,json或rest,http get请求,生成并返回索引,有灵活的请求参数设置,以及返回数据的条件,字段,分页等定制。1.下载wget http://archive.cloudera.com/cdh5/cdh/5/solr-4.10....原创 2018-12-13 11:01:05 · 289 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-26. Hue安装
Hue是一个可快速开发和调试Hadoop生态系统各种应用的一个基于浏览器的图形化用户接口。1.下载https://archive.cloudera.com/cdh5/cdh/5/hue-3.9.0-cdh5.16.1.tar.gz2.解压tar -zxvf hue-3.9.0-cdh5.16.1.tar.gz3.安装依赖 hue需要编译,是一个python的web服务...原创 2018-12-11 16:39:26 · 407 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-25. impala 安装及使用
还需继续abc,这节学习安装使用impalaImpala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。下载安装网...原创 2018-12-10 10:13:48 · 383 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-24. 学习小结,转段
经过半个多月的学习,把课本介绍的大数据工程师相关软件都涉猎了一遍,主要是下载安装配置,然后运行一个hello world!对大数据有了个初步认识,算是从门外跨进了门里,里面的风光,慢慢再领略。 为了加快进阶,下一步开始转段,从单个软件的学习向以项目引领,综合运用转化,找一些实用的项目,围绕项目需要的相关组件,边做边学,这是最快最实用的学习途径。 ...原创 2018-12-06 21:55:39 · 294 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-23. R语言recharts,REMap案例
以下学习的三个例子均copy自网络,调试运行后的代码和运行结果复制如下,以备后用。一、地图块library(ggplot2)library(baidumap)library(ggmap)options(baidumap.key = 'XXX')q <- getBaiduMap('广州白云山', width=600, height=600, zoom=18, scale = 2...原创 2018-12-06 21:36:49 · 615 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-22. R语言recharts等lib库的安装及使用
R语言环境安装好后,有各种各样的插件库拓展功能,这些库需要安装才能使用,安装好后,使用时还需引入。1. devtools是个常用的工具包,安装中还不太顺利,主要是镜像网站不可用或依赖的包未先安装,最后安装过程如下:安装 devtools#yum install openssl#yum install openssl-devel#yum install ncurses-libs yum...原创 2018-12-06 13:01:30 · 791 阅读 · 1 评论 -
学习笔记:从0开始学习大数据-21. R语言及Rstudio IDE的安装
大数据的可视化,把大数据的处理结果呈现出来,需要用到制图软件,R语言是优选。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R语言可以在Windows,linux平台安装,另外,可以搭配安装 Rstudio ,是操作R语言的IDE环境,有desktop版和server版,桌面版是桌面窗口程序,服务器版是...原创 2018-12-05 22:45:10 · 537 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-20. 机器学习spark ml算法库应用练习
作为大数据初学者,机器学习算法的运用,只是hello world知道个123,以后项目需要再深入Mahout,spark MLlib,spark ML三个算法库,根据网上了解比较,采用spark ml算法库作为学习对象。本次学习只是调试能运行网上的例子代码案例网址:https://www.ibm.com/developerworks/cn/opensource/os-cn-spar...原创 2018-12-05 13:20:07 · 638 阅读 · 1 评论 -
学习笔记:从0开始学习大数据-19. storm开发及运行环境部署
一.eclipse strom开发环境1. eclipse waven开发环境支持storm java程序开发很简单,只要pom.xml 加入依赖即可<dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-core</artifactId>...原创 2018-12-04 21:51:12 · 358 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-18.kettle安装使用
Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,t...原创 2018-12-03 22:16:15 · 419 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-17.Redis安装及使用
Redis 是一个高性能的key-value数据库。 redis的出现,很大程度补偿了memcached这类key/value存储的不足,在部 分场合可以对关系数据库起到很好的补充作用。1. 下载wget http://download.redis.io/releases/redis-5.0.2.tar.gz2.安装$ tar -zxvf redis-5.0.2.tar.gzyum...原创 2018-12-03 19:55:28 · 2944 阅读 · 3 评论 -
学习笔记:从0开始学习大数据-16. kafka安装及使用
kafka是消息处理服务的开源软件,高效高可用。可以作为大数据收集的工具或数据的管道。1. 下载 http://kafka.apache.org/downloads根据scala版本,我下载的是Scala 2.12 - kafka_2.12-2.1.0.tgz (asc, sha512)2.解压tar -zxvf kafka_2.12-2.1.0.tgz3.启动(1)启动自带的...原创 2018-12-02 22:51:41 · 898 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-15. Flume安装及使用
上节测试了spark 编程,spark sql ,spark streaming 等都测试可用了,接下来是数据源的收集,Flume的安装使用,其实很简单,但作为完整,也写个记录笔记1.下载 wget http://archive.cloudera.com/cdh5/cdh/5/flume-ng-1.6.0-cdh5.16.1.tar.gz2.解压tar -zxvf flume-ng...原创 2018-12-01 11:36:45 · 632 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-14. java spark编程实践
上节搭建好了eclipse spark编程环境在测试运行scala 或java 编写spark程序 ,在eclipse平台都可以运行,但打包导出jar,提交 spark-submit运行,都不能执行,最后确定是版本问题,就是你在eclipse调试的spark版本需和spark-submit 提交spark的运行版本一致,还有就是scala版本一致,才能正常运行。以下是java spark程...原创 2018-11-29 15:35:01 · 527 阅读 · 2 评论 -
学习笔记:从0开始学习大数据-13. Eclipse+Scala+Maven Spark开发环境配置
上节配置好了spark运行环境,可以通过 spark-shell 在scala语言界面交互执行spark命令可以参照( https://blog.csdn.net/u010285974/article/details/81840413 Spark-shell执行计算) 这篇文章操作练习接下来在eclipse ide环境开发spark程序,环境配置费了一翻周折,在此记录,备用我已安...原创 2018-11-28 21:23:59 · 302 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-12. spark安装部署
为了教学方便,考虑ALL IN ONE,一台虚拟机构建整个实训环境,因此是伪分布式搭建spark 环境: hadoop2.6.0-cdh5.15.1 jdk1.8 centos7 64位1. 安装scala环境版本是scala-2.12.7,官网下载地址http://www.scala-lang.org/download/scala-2.12.7.tgz ta...原创 2018-11-27 23:51:30 · 284 阅读 · 1 评论 -
学习笔记:从0开始学习大数据-11. sqoop安装部署
环境:centos7 已安装java和hadoop1.下载wget http://archive.cloudera.com/cdh5/cdh/5/sqoop2-1.99.5-cdh5.16.0.tar.gz2.解压 tar -zxvf sqoop2-1.99.5-cdh5.16.0.tar.gz3. 修改 /etc/profile增加环境变量export SQOOP_HOME=...原创 2018-11-26 11:07:58 · 241 阅读 · 1 评论 -
学习笔记:从0开始学习大数据-10. hive安装部署
1. 下载wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.15.1.tar.gz2.解压tar -zxvf hive-1.1.0-cdh5.15.1.tar.gz3. hive的元数据(如表名,列名等)存放在RDBMS,安装mysql 也可以是mariadb安装命令yum -y install mar...原创 2018-11-24 17:20:43 · 355 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-9. MapReduce读并写Hbase数据
上节的MapReduce计算WordCount例子是从hdfs读输入文件,计算结果也写入hdfsMapReduce分布式计算的输入输出可以根据需要从hdfs或hbase读取或写入,如A.读hdfs-->写hdfsB.读hdfs-->写hbaseC.读hbase-->写hdfsD.读hbase -->写hbase本节示例第三种和第四种情况。一、第四...原创 2018-11-23 15:45:07 · 329 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-8.直接在Eclipse配置运行MapReduce程序
前面开发hadoop程序是打包成jar,然后在命令行执行 hadoop jar XXX.jar XXXX 的方式提交作业,现在记录直接在Eclipse IDE执行MapReduce作业的方法,还是用经典的WordCount程序。1.配置Eclipse 的hdfs环境(1)菜单:窗口-》透视图-》打开透视图-》其它-》选“Map/Reduce”(2) 选“New Hadoop L...原创 2018-11-22 17:53:54 · 269 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-7.hbase java编程hello world
上节搭建了hbase启动环境,本节搭建hbase编程环境1. 准备测试数据,创建表student#hbase shellcreate 'student','info','address'put 'student','1','info:age','20'put 'student','1','info:name','linbin'put 'student','1','info:cl...原创 2018-11-22 12:52:04 · 310 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-6.hbase安装
环境:centos7 jdk1.8.0 hadoop2.6.0已安装好了,单机伪分布式1.下载hbase安装文件wget http://archive-primary.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.16.0.tar.gz2. 解压文件tar -zxvf hbase-1.2.0-cdh5.16.0.tar.gz3.修改配置 ...原创 2018-11-22 09:54:52 · 224 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-5.hadoop hdfs文件读写api操作
学习测试,网上下的代码,测试通过,助于理解读写程序流程package com.linbin.testmaven;import java.net.URI;import java.text.SimpleDateFormat;import java.util.Date;import org.apache.hadoop.conf.Configuration;import org.apac...原创 2018-11-21 08:33:40 · 246 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-4.Eclipse配置hadoop开发环境
Eclipse配置hadoop开发环境1. 下载 hadoop-eclipse-plugin-2.6.0.jarhttps://github.com/winghc/hadoop2x-eclipse-plugin/tree/v2.6.02. 复制下载的 hadoop-eclipse-plugin-2.6.0.jar文件到 eclipse的plugins目录3.重启eclips...原创 2018-11-21 08:19:06 · 279 阅读 · 0 评论 -
学习笔记:从0开始学习大数据-3.Eclipse安装
一直使用Visual Studio 开发.net程序,大数据需要使用java 在linux环境,需要使用Eclipse ide环境,安装过程如下1.下载http://download.eclipse.org/eclipse/downloads/ 我下载的是 linux 64 bit 版本2. 解压tar -zxvf eclipse-SDK-4.9-linux-gtk-x8...原创 2018-11-20 22:04:09 · 413 阅读 · 0 评论