大数据比赛前基础知识
文章平均质量分 51
主要是记录常规大数据比赛的基础知识
First_____
这个作者很懒,什么都没留下…
展开
-
Spark分析和推荐系统
Step1Driver import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileI原创 2021-12-12 11:13:11 · 1233 阅读 · 0 评论 -
5.Hive环境搭建
任务概述: 将mysql数据库安装到slave1上,以slave2 为hive服务器, 以master为hive的客户端进行连接服务器 1. 安装数据库 1.1 安装数据库 yum install mysql-community-server 1.1开启服务 systemctl start mysqld systemctl status mysql # 查看状态 1.3 查看密码: vim /var/log/mysqld.log 1.4 登陆后修改密码: set global val原创 2021-08-22 19:53:55 · 166 阅读 · 0 评论 -
3.搭建zookeeper
1.解压安装 2.配置ZOO系统环境变量(ZOOKEEPER_HOME) 3.修改文件名为zoo.cfg 4. 修改数据存储路径和日志存放路径 dataDir= dataLogDir= 5.设置集群列表 master 1 slave1 2 slave2 3 例: server.1=master:2888:3888 6.创建所需文件夹 zkdata 和 zklogdata 7.创建myid,写入对应的序号 8.启动zookeeper服务 zkServer.sh start 启动服务 zkServ原创 2021-08-22 18:41:57 · 98 阅读 · 0 评论 -
1.比赛环境赛题及图片保存
Hadoop基础环境搭建及环境前准备 HIVE数仓仓库的搭建:原创 2021-08-22 18:31:08 · 133 阅读 · 0 评论 -
2.__hadoop环境搭建相关
1. hadoop动态添加/删除节点(hadoop2.x版本的) 1. 添加节点 先将待添加节点的一切其他配置准备好, ssh, ip映射 修改所有的节点的slaves文件,添加新的 启动新节点的进程 hadoop-daemon.sh start datanode yarn-daemon.sh start nodemanager #主节点刷新 [root@slave-004 hadoop]# hdfs dfsadmin -refreshNodes #均衡block [root@原创 2021-08-13 22:47:45 · 133 阅读 · 0 评论 -
3.__使用xpath和wordcount代码
xpath的基本使用: #前提: pip install requests ; pip install lxml # 先启动 service mysql start service apache2 start 开启mysql和apache2服务 # 导入requests库 import requests # 根据 url获取到对象 response = requests.get("https://www.cnblogs.com/lone5wolf/p/10905339.html")原创 2021-08-19 20:00:53 · 94 阅读 · 0 评论 -
001__Hadoop搭建前环境准备
1.安装yum源 原因: 因为centos7自带的yum源可能更新比较慢,下载速度慢, 比赛的时候会给我们提供好yum源的相关文件 操作: 常规操作: 将备份/etc/yum.repos.d/CentOS-Base.repo和epel.repo 文件,然后下载腾讯, 阿里等等多种yum源的其中之一 比赛操作:将准备好的yum源文件,放在/etc/yum.repos.d文件下面 或者使用wget来进行下载: 示例: 阿里云 wget -O /etc/yum.repos.d/CentOS-Base.repo原创 2021-08-13 22:48:00 · 1193 阅读 · 3 评论