大数据
DevCsdner
行走在编程的道路上。。。
展开
-
zookeeper伪集群安装-windows
windows下zookeeper伪集群安装下载zookeeper安装解压下载的压缩文件到指定位置D:\InstallSoftware\bigData\apache-zookeeper-3.5.8-bin解压后文件目录如下配置单机版配置复制config\zoo_sample.cfg为zoo.cfg设置zoo.cfg# The number of milliseconds of each tick# 心跳间隔 毫秒每次tickTime=2000# The numb原创 2020-12-29 22:29:50 · 97 阅读 · 0 评论 -
大数据-HIVE安装部署- 学习笔记 -BH5
HIVE安装部署安装Hive只在一个节点上安装即可上传tar包解压tar -zxvf apache-hive-2.3.6-bin.tar.gz -C /hive/安装mysql数据库(切换到root用户)(装在哪里没有限制,只有能联通hadoop集群的节点)#mysql安装仅供参考,不同版本mysql有各自的安装流程rpm -qa | grep mysqlrpm -e mys...原创 2019-12-29 20:22:45 · 226 阅读 · 0 评论 -
Hive架构原理
https://blog.csdn.net/wwwzydcom/article/details/84038048原创 2019-12-25 19:09:48 · 159 阅读 · 0 评论 -
大数据-HADOOP高可用、联邦机制- 学习笔记 -BH4
大数据-HADOOP高可用机制- 学习笔记 -BH4原创 2019-12-23 13:00:26 · 462 阅读 · 0 评论 -
大数据 - MapReduce编程总结 -BH3
MapReduce编程总结mapreduce在编程的时候,基本上一个固化的模式,没有太多可灵活改变的地方,除了以下几处:输入数据接口:InputFormat —> FileInputFormat(文件类型数据读取的通用抽象类) DBInputFormat (数据库数据读取的通用抽象类)默认使用的实现类是: TextInputFormat job.setInput...原创 2019-12-23 09:13:53 · 219 阅读 · 0 评论 -
大数据 - MapReduce编程案例 -BH3
MapReduce编程案例reduce端join算法实现需求:订单数据表t_orderiddatepidamount100120191210P00012100220191210P00013100220191210P00023商品信息表t_productidpnamecategory_idprice10...原创 2019-12-21 11:17:20 · 326 阅读 · 0 评论 -
mapreduce参数优化
mapreduce参数(重要配置参数)优化资源相关参数以下参数是在用户自己的mr应用程序中配置就可以生效mapreduce.map.memory.mb: 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则会被强制杀死。mapreduce.reduce.memory.mb: 一个Reduce Task可使用的资源上限(单位:...原创 2019-12-19 17:32:52 · 163 阅读 · 0 评论 -
使用SecureCRT的SFTP在WINDOWS与LINUX之间传输文件
背景:有一台主机,安装了windows7,在其安装了VMware,然后安装了CentOS虚拟机。在windows7上安装SecureCRT来ssh连接CentOS虚拟机。一般在windows上面下载软件,然后通过vsftp上传到CentOS虚拟机上。但是这样非常麻烦,现在考虑使用sftp协议来直接传输。方案:使用SecureCRT软件ssh连接到CentOS虚拟机。然后在SecureCRT上...原创 2019-12-17 17:14:02 · 186 阅读 · 0 评论 -
大数据-hadoop-Ant使用
Ant使用Ant打包Jar<?xml version="1.0" encoding="utf-8"?><!-- maven项目使用ant打包步骤 1.命令行执行mvn dependency:copy-dependencies 把依赖的jar copy到${project.path}/target/dependency/目录下.可以很容易的利用好Ant. 2....原创 2019-12-15 17:41:52 · 191 阅读 · 0 评论 -
大数据 - MapReduce - 学习笔记 -BH3
MAPREDUCE原理篇Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上;为什么要MAPREDUCE海量数据在单机上处理因为硬件资源限制,无法胜任而一旦将单机版程序扩展到集群来分布式运行,将极大增加程...原创 2019-12-08 11:06:30 · 298 阅读 · 0 评论 -
大数据-Hadoop文件系统- 学习笔记 -BH2
Hadoop文件系统(HDFS)HDFS的概念和特性首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色;重要特性如下:HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,老...原创 2019-11-30 16:42:51 · 476 阅读 · 0 评论 -
大数据-Hadoop-推荐系统架构
推荐系统架构原创 2019-11-30 12:21:43 · 345 阅读 · 0 评论 -
大数据-Hadoop集群搭建-学习笔记 -BH1
Hadoop安装配置ssh免登陆生成ssh免登陆密钥ssh-keygen -t rsa(四个回车),执行完这个命令后,会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)将公钥拷贝到要免密登陆的目标机器上ssh-copy-id localhost,设置本机免密登录ssh-copy-id 192.168.80.11 将公钥拷贝到要免密登陆的192.168.80.11目标机器上...原创 2019-11-28 21:08:04 · 328 阅读 · 0 评论 -
大数据-Linux基础-rpm命令
安装MySQL查看启用的端口[hadoop@localhost ~]$ netstat -nltp (No info could be read for "-p": geteuid()=1000 but you should be root.)Active Internet connections (only servers)Proto Recv-Q Send-Q Local Addre...原创 2019-11-24 17:56:16 · 176 阅读 · 0 评论 -
大数据-Linux基础-YUM本地源制作
YUM常用命令# 安装httpd并确认安装yum install -y httpd# 列出所有可用的package和package组yum list# 清除所有缓存数据yum clear all# 列出一个包所有的依赖包yum deplist httpd# 删除httpdyum remove httpd挂载光盘# 挂载光盘[hadoop@localhost yum.re...原创 2019-11-24 16:48:52 · 172 阅读 · 0 评论 -
大数据-Linux(CentOS 7)-基础配置-网络设置
基础配置设置虚拟机网络为NET虚拟机中虚拟网络相当于路由器,连接虚拟机与主机中的网络所以此时主机与虚拟机要使用的网络为:子网:192.168.80.0子网掩码:255.255.255.0网关:192.168.80.2主机网络配置VMware Virtual Ethernet Adapter for VMnet8 为主机的一个网卡,用来与虚拟机进行网络通信IPv4 地址...原创 2019-11-24 09:04:44 · 400 阅读 · 0 评论 -
zookeeper集群常见错误
zookeeper 集群 Cannot open channel to X at election address Error contacting service. It is probably not running.server.1=0.0.0.0:2888:3888server.2=192.168.0.6:2888:3888server.3=192.168.0.7:2888:3888...原创 2019-05-10 10:25:24 · 867 阅读 · 0 评论