生产实战spark
段智华
智华专注于GenAI/LLM大模型技术的研究,参与了7本书籍的写作,拥有3项专利,10多项软著,以及4篇IEEE国际会议论文。参与Gavin大咖主编,北京航空航天大学出版社2024年5月最新出版的2本图书著作:《Transformer&ChatGpt解密:原理、源码及案例》、《Transformer& Rasa 解密 原理、 源码及案例》,共撰写1948篇原创博客文章,涵盖Transformer、GPT-4、ChatGPT、Llama2/3、Langchain、Mistral、Mixtral、Rasa、AI机器学习、Spark大数据等主题。博客文章的总阅读量为310万次。
展开
-
生产环境实战spark (1)Linux ubuntu系统安装
生产环境实战spark (1)Linux ubuntu系统安装1,环境: 云平台提供5台虚拟机:1台做master 4台做worker vmwarevsphereclient 6.0软件登录2,系统安装:ubuntukylin-14.04.2-desktop-amd64 先安装一台master的Linux,云系统克隆4台worker。3,Linux遇到的问题需要修改的地方:原创 2017-03-29 15:25:05 · 756 阅读 · 0 评论 -
生产环境实战spark (10)分布式集群 5台设备 SPARK集群 HistoryServer WEBUI不能打开问题解决 File file:/tmp/spark-events does not
生产环境实战spark (10)分布式集群 5台设备 SPARK集群 HistoryServer WEBUI不能打开问题解决这个是个老问题,之前也遇到过,启动start-history-server.sh,报错如下Caused by: java.io.FileNotFoundException: Log directory specified does not exist: file:/tmp/s原创 2017-04-27 12:42:00 · 4853 阅读 · 0 评论 -
生产环境实战spark (9)分布式集群 5台设备 SPARK集群安装
生产环境实战spark (9)分布式集群 5台设备 SPARK集群安装1, 上传spark到master,检查[root@master rhzf_spark_setupTools]# lshadoop-2.6.5.tar.gz jdk-8u121-linux-x64.tar.gz scala-2.11.8.zip spark-2.1.0-bin-hadoop2.6.tgz[root@ma原创 2017-04-25 15:48:33 · 1375 阅读 · 2 评论 -
生产环境实战spark (8)分布式集群 Hadoop集群WEBUI打不开问题解决,关闭防火墙firewall
生产环境实战spark (8)分布式集群 Hadoop集群WEBUI打不开问题解决在上一步中安装了Hadoop集群,发现127.0.0.1:50070 页面无法打开。1,master本地检查webui 在云平台master上直接打开浏览器,检查127.0.0.1:50070可以打开。 初步定位是防火墙的问题2,关闭防火墙。CentOS 7.0默认使用的是firewall作为防火墙,原创 2017-04-25 15:11:27 · 2171 阅读 · 1 评论 -
生产环境实战spark (7)分布式集群 5台设备 Hadoop集群安装
生产环境实战spark (7)分布式集群 5台设备 Hadoop集群安装1,Hadoop 下载。下载地址:http://hadoop.apache.org/releases.html下载版本:hadoop 2.6.5 版本 hadoop 2.6.x版本比较稳定2,使用winscp工具上传到master节点。检查:原创 2017-04-19 10:45:41 · 1861 阅读 · 0 评论 -
生产环境实战spark (2)Linux CentOS-7.0-1406-x86_64系统安装
生产环境实战spark (2)Linux CentOS-7.0-1406-x86_64系统安装云平台不能开通公网测试,乌班图系统默认不带ssh,公网连不上,无法安装,后续也无法进行。不得己,更换操作系统,换了系统!更改为Linux的社区版本安装安装过程较简单:1,配置网络、磁盘、时间、安装软件2,重启原创 2017-04-06 13:14:01 · 902 阅读 · 0 评论 -
生产环境实战spark (5)分布式集群 5台设备之间hosts文件配置 ssh免密码登录
生产环境实战spark (5)分布式集群 5台设备之间 ssh免密码登录 之前已经在master节点单台设备上配置ssh免密码的登录工作,现在要做的事情是在5台设备之间实现ssh免密码操作。整个大数据集群的安装中没有使用一些hadoop的第三方的安装包工具,这里使用笨办法,SSH配置也比较简单,就一台一台的手工安装部署:1.关闭防火墙(单台设备检查)2.hosts文件配置(集群节点按脚本分发)3.原创 2017-04-18 10:53:44 · 5113 阅读 · 0 评论 -
生产环境实战spark (6)分布式集群 5台设备 Scala安装
生产环境实战spark (6)分布式集群 Scala安装1,scala官网下载scala安装到本地。这里使用spark 2.1.x版本,而spark 2.1 版本需要scala2.1.1版本以上的兼容版本,因此下载安装 scala-2.11.8下载地址:http://www.scala-lang.org/download/all.htmlSpark runs on Java 7+, Python原创 2017-04-19 10:14:44 · 1395 阅读 · 0 评论 -
spark 开发考题!面试题! 根据IP地址查询归属地,统计归属地IP地址数
spark开发考题!面试题! 网络开发式运营人才选拔!题目:现有一批IP地址(详见文件ip.txt),需要根据IP地址库信息(详见文件iplib.txt),查询归属地信息,并统计每一个归属地IP地址的总数。请编写spark任务并在测试环境上提交运行。统计结果请以文本文件格式请保存在xxxx目录下,源代码请保存在xxxx目录下。运行结果格式示例:江苏 移动 241江西 电信 67河南 联通 8原创 2017-04-13 10:12:31 · 1933 阅读 · 0 评论 -
生产环境实战spark (11)分布式集群 5台设备 Zookeeper集群、Kafka集群安装部署
生产环境实战spark (11)分布式集群 5台设备 Zookeeper集群、Kafka集群安装部署1,zookeeper的下载地址http://www.apache.org/dyn/closer.cgi/zookeeper/http://apache.fayea.com/zookeeper/zookeeper-3.4.10/安装版本:zookeeper-3.4.102,Kafka的下载地址ht原创 2017-04-28 11:01:06 · 1957 阅读 · 0 评论 -
生产环境实战spark (4)Linux CentOS 系统安装 防火墙检查 ssh免密码登录
生产环境实战spark (4)Linux CentOS 系统安装 防火墙检查 ssh免密码登录保障hadoop集群、spark集群、kafka集群、zookeeper集群的分布式通信畅通,分布式节点之间关闭防火墙。保障hadoop集群、spark集群、kafka集群、zookeeper集群的系统登录畅通,配置节点间ssh免密码登录。1.关闭防火墙[root@master ~]# service i原创 2017-04-11 09:36:21 · 738 阅读 · 0 评论 -
生产环境实战spark (3)Linux CentOS 系统安装 修改主机名 安装JDK
生产环境实战spark (3)Linux CentOS-7.0-1406-x86_64 系统安装1,Linux centos 7 安装完成,修改主机名2,安装JDK1,Linux centos 7 安装完成,修改主机名[root@localhost ~]# cat /etc/sysconfig/network# Created by anaconda[root@localhost ~]# cat原创 2017-04-10 10:06:54 · 648 阅读 · 0 评论 -
IDEA环境安装及运行
IDEA环境安装及运行(1)windows 10 + idea 运行spark 提示 Winutils异常:解决办法:1,建立目录 C:\hadoop\bin,将网上下载的winutils.exe文件放在此目录下。(网上提供的下载地址https://github.com/srccodes/hadoop-common-2.2.0-bin)2,环境变量配置:HADOOP_HOME 配置为 C:\had原创 2018-01-15 11:10:41 · 1214 阅读 · 0 评论