hadoop生态圈
JAVA技术分享官-乐乐
zzz
展开
-
sparks streaming集成kafka注意要点
2018-04-18: 转载请注明出处:落在地上的乐乐https://blog.csdn.net/qq_35946969/article/details/79995514sparks streaming集成kafka注意要点:1、版本问题必须注意,我使用的各个版本:scala 2.11 ,spark 2.3.0,kafka 0.82、搞定spark2.3.0集群、kafka0.8集群3、搞定...原创 2018-04-18 19:35:14 · 290 阅读 · 0 评论 -
Hadoop笔记之十一——Flume安装及简单实例
===================安装====================================1、解压安装2、配置flume-env.sh(JAVA_HOME)3、完事儿===================简单使用================================Flume常用参数--conf,-c <conf> us...原创 2018-11-02 14:12:41 · 268 阅读 · 0 评论 -
Hadoop笔记之十二——oozie安装及实例
一、oozie安装1、安装mysql数据库(root用户)# service mysql stop# rpm -qa|grep -i mysql# rpm -e MySQL-server-5.6.24-1.el6.x86_64# rpm -e MySQL-client-5.6.24-1.el6.x86_64 # mv /var/lib/mysql/ /var/lib/my...原创 2018-11-02 14:20:23 · 333 阅读 · 0 评论 -
Hadoop笔记之十三——hue的安装以及实例
一、Hue安装1、检查联网[beifeng@hadoop-senior ~]$ ping www.baidu.comPING www.a.shifen.com (115.239.210.27) 56(84) bytes of data.64 bytes from 115.239.210.27: icmp_seq=1 ttl=128 time=6.49 ms64 bytes fro...原创 2018-11-02 14:23:22 · 746 阅读 · 0 评论 -
Hadoop笔记之十四——hbase安装
本猿对hbase没有太多深入的实际操作,只有安装配置这一方面以及框架理解方面有一些可以拿出来的东西。1、上传解压2、配置hbase-env.sh export JAVA_HOME=/opt/modules/jdk1.7.0_67export HBASE_MANAGES_ZK=false 3、配置启动zookeeper$ bin/zkServer.sh star...原创 2018-11-03 17:32:44 · 155 阅读 · 0 评论 -
Hadoop笔记之十五——spark分析日志实例流程简述
需求: 分析apache 服务器日志步骤: step 0:在命令行下创建项目(windows、linux都可以) step 1:将项目导入idea step 2:修改pom.xml,加上hadoop和spark的依赖 step 3:创建apchelog对象类 step 4:编写日志分析逻辑 step 5:去掉重复放servlet-api.j...原创 2018-11-03 17:32:56 · 558 阅读 · 0 评论 -
Hadoop笔记之十六——cm、cdh安装使用
不论学什么,总会遇到障碍,自己走和别人同样的路,也总会有不同的困难,仅以此记录我的cm、cdh摸索道路。1、在VMware vSphere上面开辟出四台机器,五台的话能搭个HDFS的HA,每一台16G内存、八核、40G辅存 ip排列如下: 192.168.126.80 bigdata.hero-01 192.168.126.81 bigdat...原创 2018-11-03 17:33:07 · 544 阅读 · 0 评论 -
理解Spark之一——stage划分
我们首先知道Spark的基本执行流程,简化来说,当提交一个Spark程序,HDFS上的每个Block对应一个分区、一个Task任务,这个Task任务就是在跑我们开发是Spark程序,程序中是我们使用的一个个算子。 在算子中,又可以划分成为两种,一种是宽依赖、一种是窄依赖,它们和stage的关系就是宽依赖是划分stage的边界,窄依赖并不会划分stage。 那么为什么需要stage...原创 2019-05-23 11:03:01 · 1371 阅读 · 2 评论 -
Hadoop笔记之十七——爬虫框架scrapy实际案例(爬取安卓版QQ阅读)
话不多说,我们的目的: 使用scrapy爬取安卓版QQ阅读所有的小说(只是小说的基本信息,小说内容是不要想的、千万不要想……)环境准备安卓收集模拟器:夜神模拟器安卓手机抓包工具:fiddler代码运行环境: python3.6存储数据库: postgreSQL。大体思路 本来想详细的写一写过程步骤,但是懒癌来了怎么都拦不住。下面可以给大家一...原创 2019-06-11 16:53:40 · 1523 阅读 · 2 评论 -
Hadoop笔记之十——利用hive统计uv、pv的简单思路
这篇笔记写的时间久了,具体的东西找不到,但是一下内容提供的流程可以供各位小白参考 0、统计每个时段网站的PV和UVhive (db_track)> select date,hour,count(url) pv,count(distinct guid) uv from track_log group by date,hour ;date hour pv uv20...原创 2018-11-02 14:10:27 · 2656 阅读 · 0 评论 -
Hadoop笔记之九——sqoop安装以及各种秀
===================================安装sqoop==================================== 1、下载解压 2、修改sqoop-env.sh #Set path to where bin/hadoop is available export HADOOP_COMMON_HOME=/opt/modules...原创 2018-11-02 14:06:26 · 177 阅读 · 0 评论 -
Hadoop笔记之八——Hive安装及关联mysql
1、下载hive压缩包https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-2.3.3/apache-hive-2.3.3-bin.tar.gz 2、解压hivetar -zxvf apache-hive-2.3.3-bin.tar.gz 3、安装mysql ...原创 2018-11-02 14:01:07 · 669 阅读 · 2 评论 -
flume->kafka & local_file 注意要点
2018-04-19: 转载请注明:https://blog.csdn.net/qq_35946969/article/details/80006563 flume->kafka & local_file 注意要点: 备用命令: flume启动: flume/bin/flume-ng agent --conf-file flume/conf/kafka.p...原创 2018-04-19 16:11:40 · 233 阅读 · 1 评论 -
hadoop笔记之一——hadoop.2x的部署以及新内容理解
2019-04-02新增:刷新配置:bin/hdfs dfsadmin –refreshSuperUserGroupsConfigurationbin/yarn rmadmin –refreshSuperUserGroupsConfiguration---------------------hadoop笔记系列是本猿曾经学习hadoop过程中记录的笔记,里面有许多自己踩过的坑...原创 2018-09-28 16:14:05 · 405 阅读 · 0 评论 -
Hadoop笔记之二——safemode操作、副本放置策略配置
safemode操作当hadoop重启的时候都会首先进入安全模式,在这段时间里: 1、加载fsimage 2、对edit——in……日志文件内容进行执行操作1、bin/hdfs dfsadmin –safemode get 查看是否进入安全模式2、bin/hdfs dfsadmin –safemode enter 进入安全模式3、bin/hdfs dfs...原创 2018-10-09 10:32:06 · 186 阅读 · 0 评论 -
Hadoop笔记之三——源码编译hadoop2.5总结
源码编译这件事情还是很有意义的,在很多时候,要在指定的机器上面搭建某个框架,但是机器上面已经存在了某些软件导致我们的框架无法直接使用rpm的方式安装,这时候就需要自己动手,丰衣足食,源码编译了,毕竟大部分开源项目的代码都在github上面老老实实的躺着。 源码编译hadoop2.x系列需要做的事情有:配置环境(下载安装各种东西、配置环境变量),下载hadoop2.x源码,使用mave...原创 2018-10-09 10:33:28 · 147 阅读 · 0 评论 -
Hadoop笔记之四——hdfs文件读写流程 实例
1、引入jar,引入核心和hdfs有关所有包2、实例代码: import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.u...原创 2018-11-02 13:13:33 · 321 阅读 · 0 评论 -
Hadoop笔记之五——java访问hdfs的权限设置
java代码取访问hdfs的时候,默认不是以hdfs系统所属用户的身份访问的,要想以主用户身份访问,有两种方式。 1、 配置连接hadoop的时候,加入如下代码。 //客户端用户与文件所属者用户 名称是否一样 System.setProperty("HADOOP_USER_NAME", "hadoop")...原创 2018-11-02 13:17:17 · 1586 阅读 · 0 评论 -
Hadoop笔记之六——Hadoop2.x 完全分布式搭建
1、准备服务器,并规划服务器角色 3台 虚拟机Linux s-hadoop01.lele.com 4G 内存 40G (机子配置较差 1G) NameNode ResourceManager DataNode NodeManager s-hadoop02.lele.com 2G 内存 40G (1G) DataNode Sec...原创 2018-11-02 13:23:30 · 233 阅读 · 0 评论 -
Hadoop笔记之七——hadoop HA高可用搭建
0、规划好机器3台 虚拟机Linuxhadoop.lele.org 4G 内存 40G (机子配置较差 1G) NameNode ResourceManager DataNode NodeManager zkhadoop.lele.org02 2G 内存 40G (1G) DataNode ...原创 2018-11-02 13:51:15 · 557 阅读 · 0 评论 -
Hadoop笔记之十八——Hive实战、详解
一、什么是hive 如下图所示,hive在Hadoop生态中处于比较高层的位置,其本质上就是将mapreduce转换成了sql的写法。 却也sql不尽然相同,毕竟mysql等关系型数据的sql则是服务于web、应用等,是为了让数据更面向对象、更稳定、更原子性操作。而hive的目的则是数据分析,不需要对每一条数据都负责,只是分析数据的特性特征。二、hi...原创 2019-09-29 15:29:37 · 292 阅读 · 0 评论