大数据开发入门
这里包含了作者学习大数据过程当中的笔记,学习方法等等
方兵兵
大数据开发工程师
展开
-
搭建hadoop集群
1)关闭防火墙(进行远程连接)systemctl stop firewalld.servicesystemctl -disable firewalld.service2)永久修改设置主机名vi /etc/hostname3)配置映射文件vi /etc/hostsip 主机名4)配置jdk5)配置免密登录6)配置core-site.xml7)配置hadoop-env.xml...原创 2019-01-02 00:46:35 · 122 阅读 · 0 评论 -
idea new 新文件没有scala菜单解决方法
在idea中新建scala工程,需要先安装scala插件。1)File->setting->Plugins,然后搜索scala插件 安装。安装完成后重启idea2)设置scala sdkFile->Project Structure->Libraries->+3)新建scala工程现在就可以新建scala类了...原创 2019-02-15 20:48:14 · 6770 阅读 · 1 评论 -
win7修改VMware Network Adapter VMnet8为静态ip地址
win7上面用虚拟机学习大数据,有时候本地VMware虚拟网卡的ip会突然被重新分配。导致SecureCRT连接到虚拟服务器失败。突然就遇到了,这里被重新配置了IPv4地址,导致原来SecureCRT的session连接失败了。所以要给这个虚拟网卡配一个静态ip。右键电脑底部网络图标,打开网络与共享中心-》更改适配器设置找到这个虚拟网卡。右键这个虚拟网卡-》选择属性打开DNS服务器...原创 2019-02-02 16:02:21 · 5536 阅读 · 5 评论 -
hbase相关需求
需求1:对hbase中一张表yangme的rowkey进行计数1)导入环境变量export HBASE_HOME=/root/hd/hbase-1.3.0export HADOOP_HOME=/root/hd/hadoop-2.8.5export HADOOP_CLASSPATH=${HBASE_HOME}/bin/hbase mapredcp2)启动hbase-mr任务hadoop里...原创 2019-02-01 19:00:21 · 298 阅读 · 0 评论 -
hbase通过idea操作api
1)安装Intellij idea这款开发工具收费,要注册http://idea.lanyus.com/这里找注册码安装完成后输入注册码,然后需要在本地hosts文件修改C:\Windows\System32\drivers\etc\hosts加上这个0.0.0.0 account.jetbrains.com2)Intellij idea新建Maven工程在pom.xml中添加h...原创 2019-02-01 16:29:59 · 7170 阅读 · 1 评论 -
Hbase数据库入门
Hbase概述Apache Hbase是hadoop数据库,是一个分布式,可扩展的大数据存储。当您需要对大数据进行随机,实时读/写访问时,请使用Apache HBase。该项目的目标是托管非常大的表-数十亿行x百万列-在商品硬件集群上。Apache HBase是一个开源的,分布式的,版本化的非关系数据库,模仿Google的Bigtable;Chang等人的结构化数据分布式存储系统。正如Bigt...原创 2019-02-01 16:23:32 · 236 阅读 · 0 评论 -
Azkaban工作流管理入门
Azkaban概述Azkaban是一个分布式工作流管理器,在LinkedIn上实现,以解决Hadoop作业依赖性问题,我们有需要按顺序运行的工作,从ETL工作到数据分析产品。特点:1)给用户提供了一个非常友好的可视化界面 2)非常方便的上传工作流 -》打成压缩包jar包3)设置任务间的关系4)权限设置 5)模块化 6)随时停止和启动任务 7)可以查看日志记录8)与O...原创 2019-02-01 16:22:35 · 396 阅读 · 0 评论 -
sqoop数据迁移入门
Sqoop概述1)官网 http://sqoop.apache.org2)场景 传统型缺点,分布式存储。把传统型数据库数据迁移 Apache Sqoop是一种用于在Apache Hadoop和结构化数据存储(如关系数据库)之间高效传输批量数据的工具 Sqoop安装部署1)下载安装包 2)解压tar -xzvf .tar3)修改配置 vi sqoop-env....原创 2019-02-01 16:21:32 · 253 阅读 · 0 评论 -
Flume入门
1)flume概述Flume是一种分布式,可靠且可用的服务,用于有效的收集,聚合和移动大量日志数据,它具有基于流数据的简单灵活的架构,它具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错能力,它使用简单的可扩展数据模型,允许在线分析应用程序。2)为什么需要flume数据从哪里来?-》爬虫-》日志数据-》传统型数据库 sqoop(数据迁移)3)flume架构source...原创 2019-02-01 16:20:36 · 117 阅读 · 0 评论 -
hive基本操作
1)hive概述Apache Hive数据仓库软件有助于使用SQL读取,编写和管理驻留在分布式存储中的大型数据集,可以将结构投影到已存储的数据中,提供了命令行工具和JDBC驱动程序以将用户连接到Hive。数据计算:mapreduce分布式计算->难度大hive->SQL语句mysql简化开发减少学习成本2)优缺点优点: (1)操作接口采用了sql,简化开发,减少学习...原创 2019-01-23 23:16:04 · 206 阅读 · 0 评论 -
hive安装
Hive安装1)下载安装包 2)上传安装包 3)解压 4)修改配置文件 hive-env.shHADOOP_HOME=/root/hd/hadoop-2.8.5 export HIVE_CONF_DIR=/root/hd/hive/conf5)启动hive前启动hadoop集群 start-dfs.sh start-yarn.sh start-all.sh 启动...原创 2019-01-23 23:13:18 · 98 阅读 · 0 评论 -
安装zookeeper集群
hadoop生态圈的管理员Apache Zookeeper 致力于开发和维护开源服务器,实现高度可靠的分布式协调。2)什么是ZooKeeper?Zookeeper是一种集中式的服务,用于维护配置信息,命名,提供分布式同步和提供组服务。所有这些类型的服务都以分布式应用程序的某种形式使用。每次实施它们都需要做很多工作来修复不可避免的错误和竞争条件。由于难以实现这些类型的服务,应用程序最初通常会吝...原创 2019-01-16 22:45:57 · 117 阅读 · 0 评论 -
mapreduce之reducejoin
有两个文件pd.txt01 mac02 huawei03 xiaomi第一列是订单id,第二列是商品名称order.txt201801 01 1201802 02 2201803 03 3201804 01 4201805 02 5201806 03 6第一列是时间戳,第二列是订单id,第三列是数量这两个文件都在一个文件中需要处理后输出结果是订单id 商品名称 数量...原创 2019-01-13 17:49:29 · 254 阅读 · 0 评论 -
mapreduce之mapjoin
mapjoin指的是在mapreduce的map阶段先加载一个文件缓存到内存当中,这个文件可能是从磁盘读取的或网络请求的都可以。map(key,value,context)方法中读取的数据key和value,这两个数据和先前缓存到内存中的数据一起做处理后再context.write()到reduce阶段。mapjoin相当于在map阶段写数据到reduce阶段前对数据做了处理。比如有两个tx...原创 2019-01-13 17:02:08 · 1392 阅读 · 2 评论 -
MapReduce任务提交到yarn集群中执行
将本地在eclipse执行的任务要提交到服务器hadoop集群中执行需要修改将任务驱动类第6步,输入的路径和输出的路径由本地改成hdfs文件系统目录public class WordCoutDriver { public static void main(String[] args) throws IOException, ClassNotFoundException, Interru...原创 2019-01-07 00:24:09 · 2941 阅读 · 1 评论 -
hadoop数据类型及序列化
JAVA类型 HADOOP类型int IntWritablefloat FloatWritablelong LongWritabledouble DoubleWritablestring Textboolean BooleanWritablebyt...原创 2019-01-06 21:11:27 · 313 阅读 · 1 评论 -
MapReduce编程规范
用户编写MapReduce程序主要分为三个部分:Mapper,Reducer,Driver1.Mapper阶段1)用户自定义mapper类要继承父类Mapper2)Mapper的输入数据的kv对形式(kv类型可以自定义)3)Mapper的map方法的重写(加入业务逻辑)4)Mapper的数据的出kv对的形式(kv类型可以自定义)5)map方法(maptask进程)对每个<k,v&...原创 2019-01-06 20:18:31 · 352 阅读 · 0 评论 -
MapReduce框架统计单词次数
在eclipse中新建java工程mapreduce1)导入包如下hadoop-2.8.5\share\hadoop\hdfs\hadoop-hdfs-2.8.5.jarhadoop-2.8.5\share\hadoop\hdfs\lib\\*hadoop-2.8.5\share\hadoop\common\hadoop-common-2.8.5.jarhadoop-2.8.5\shar...原创 2019-01-06 19:08:57 · 540 阅读 · 1 评论 -
yarn集群的搭建
大数据中除了hadoop集群外,还有个yarn集群,这个集群用来处理各种计算任务需要分配的cup和内存。1)首先配置yarn-site.xml文件<configuration><!-- Site specific YARN configuration properties --> <property> &l...原创 2019-01-06 16:40:55 · 527 阅读 · 0 评论 -
window本地用eclipse调用api操作hadoop集群
1、下载ecplice安装2、选择hadoop2.8.5下载到window本地3、在eclipse中新建java工程4、添加hadoop中的jar包到java工程右键工程->Build Path->Add Libraries->User Library依赖jar包都在hadoop2.8.5文件夹中的share目录中,选择其中的share/hadoop/com...原创 2019-01-03 01:22:22 · 499 阅读 · 0 评论 -
hdfs常用api
1)hdfs 的客户端1.网页形式->测试用http://192.168.252.121:500702.命令行形式->测试用3.企业形式2)查看帮助hdfs dfs -help3)查看当前目录信息hdfs dfs -ls /4)上传文件hdfs dfs -put /本地路径/本地路径5)剪切文件hdfs dfs -moveFromLocal a.txt /aa....原创 2019-01-02 02:01:00 · 467 阅读 · 0 评论