大数据比赛前基础知识
文章平均质量分 51
主要是记录常规大数据比赛的基础知识
First_____
这个作者很懒,什么都没留下…
展开
-
Spark分析和推荐系统
Step1Driverimport org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.lib.input.FileI原创 2021-12-12 11:13:11 · 1278 阅读 · 0 评论 -
5.Hive环境搭建
任务概述: 将mysql数据库安装到slave1上,以slave2 为hive服务器, 以master为hive的客户端进行连接服务器1. 安装数据库1.1 安装数据库yum install mysql-community-server1.1开启服务systemctl start mysqldsystemctl status mysql # 查看状态1.3 查看密码: vim /var/log/mysqld.log1.4 登陆后修改密码:set global val原创 2021-08-22 19:53:55 · 200 阅读 · 0 评论 -
3.搭建zookeeper
1.解压安装2.配置ZOO系统环境变量(ZOOKEEPER_HOME)3.修改文件名为zoo.cfg4.修改数据存储路径和日志存放路径dataDir=dataLogDir=5.设置集群列表master 1 slave1 2 slave2 3例:server.1=master:2888:38886.创建所需文件夹zkdata 和 zklogdata7.创建myid,写入对应的序号8.启动zookeeper服务zkServer.sh start 启动服务zkServ原创 2021-08-22 18:41:57 · 128 阅读 · 0 评论 -
1.比赛环境赛题及图片保存
Hadoop基础环境搭建及环境前准备HIVE数仓仓库的搭建:原创 2021-08-22 18:31:08 · 162 阅读 · 0 评论 -
2.__hadoop环境搭建相关
1. hadoop动态添加/删除节点(hadoop2.x版本的)1. 添加节点先将待添加节点的一切其他配置准备好, ssh, ip映射修改所有的节点的slaves文件,添加新的启动新节点的进程hadoop-daemon.sh start datanodeyarn-daemon.sh start nodemanager#主节点刷新[root@slave-004 hadoop]# hdfs dfsadmin -refreshNodes#均衡block[root@原创 2021-08-13 22:47:45 · 164 阅读 · 0 评论 -
3.__使用xpath和wordcount代码
xpath的基本使用:#前提: pip install requests ; pip install lxml # 先启动 service mysql start service apache2 start 开启mysql和apache2服务# 导入requests库 import requests# 根据 url获取到对象 response = requests.get("https://www.cnblogs.com/lone5wolf/p/10905339.html")原创 2021-08-19 20:00:53 · 119 阅读 · 0 评论 -
001__Hadoop搭建前环境准备
1.安装yum源原因:因为centos7自带的yum源可能更新比较慢,下载速度慢, 比赛的时候会给我们提供好yum源的相关文件操作:常规操作: 将备份/etc/yum.repos.d/CentOS-Base.repo和epel.repo 文件,然后下载腾讯, 阿里等等多种yum源的其中之一比赛操作:将准备好的yum源文件,放在/etc/yum.repos.d文件下面或者使用wget来进行下载:示例: 阿里云wget -O /etc/yum.repos.d/CentOS-Base.repo原创 2021-08-13 22:48:00 · 1281 阅读 · 3 评论
分享