- 博客(17)
- 收藏
- 关注
原创 大数据学习的心路历程(持续更新)
前言在学习大数据之前,先要了解他解决了什么问题,能给我们带来什么价值。一方面,以前IT行业发展没有那么快,系统的应用也不完善,数据库足够支撑业务系统。但是随着行业的发展,系统运行的时间越来越长,搜集到的数据也越来越多,传统的数据库已经不能支撑全量数据的存储工作;另一方面,数据越来越多,单机的计算已经成为瓶颈。因此,基于分布式的大数据系统崭露头角。那么大数据系统里面都有什么东西呢?可以参考下面的图在...
2018-06-08 09:34:44 1113 2
原创 【踩坑】Python 因函数参数类型提示(Type hints)导致的隐晦BUG
客户端传输的请求数据是json字符串,服务端将该请求数据传参给函数,函数参数给了一个str的类型提示,源码运行时没有任何问题,但构建之后json.loads解析报错Expected unicode, got List。问题原因不是很明确,极大可能与构建环境有关系。构建使用的Pyinstaller。大家以后如果遇到类似的bug,请避坑。
2023-11-07 15:04:16 174
原创 leetcode 274. H 指数
给定数组表示研究者总共有 5篇论文,每篇论文相应的被引用了 3, 0, 6, 1, 5次。由于研究者有 3 篇论文每篇。篇论文被引用的次数。计算并返回该研究者的 h。代表“高引用次数” ,一名科研人员的。被引用了 3次,其余两篇论文每篇被引用。是指他(她)至少发表了。篇论文,并且每篇论文。
2023-10-29 17:40:58 44
原创 gRPC学习
在gRPC中,客户端应用程序可以不同的机器上像调用本地方法一样,直接调用服务器应用程序上的方法,使得更容易创建分布式应用和服务。gRPC是基于定义服务的思想,指定可以远程调用的方法及其参数和返回类型。在服务端,服务端实现此接口并运行gRPC服务器来处理客户端调用。在客户端,客户端有一个stub,提供与服务器相同的方法。正在上传…重新上传取消1)使用protocol buffers默认情况下,gRPC使用protocol buffers,其是谷歌用于序列化结构化数据的开源框架。
2023-04-23 18:33:48 921
原创 Hadoop-3.3.5遇到的坑
最终确定是由于公司里面服务器存储是基于NFS共享存储,所以相当于两台机器往同一个目录下写入pid。观察两台机器pid路径下的内容,发现仅有master主机上datanode的pid。所以使用停止脚本关闭时,会导致读取失败,从而导致两个datanode都无法关闭。可以看到时根据$HADOOP_CONF_DIR中的配置来启动进程的。可以看到,与启动脚本类似,也是通过配置文件中的参数来关闭进程。当我们启动后,hadoop底层将pid写入到配置的路径。其中,与关闭进程最相关的配置文件中的参数就是。
2023-04-20 09:33:29 406
原创 【总结】C++工程师学习路线|推荐视频|推荐书籍
由于博主秋招拿到的offer有限,经过对比,决定转到C++开发技术栈,此篇文章用于规划自己今后的成长路线并分享给大家。
2023-01-13 10:45:53 640
原创 Spark3.0调优学习
1、现象绝大多数task运行速度很快,但是就是有那么几个task任务运行极其缓慢,慢慢的可能就会报内存溢出异常。2、原因数据倾斜一般发生在shuffle类的算子,比如distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup等,涉及到数据重分区,如果其中某一个key 数量特别大,就发生了数据倾斜。
2022-09-09 22:52:17 872
原创 大数据云计算学习路线分析(纯属个人看法和观点)
1.Linux基础和Hadoop分布式架构计算处理模块学完此阶段可掌握的核心能力:熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构;学完此阶段可解决的现实问题:搭建负载均衡、高可靠的服务器集群,可以增大网站的并发访问量,保证服务不间断地对外服务;学完此阶段可拥有的市场价值:具备初级程序员必要具备的Linux服务器运维能力。2...
2018-06-12 19:13:44 11936
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人