BigData
转让半包_辣条
靠技术征服自己!
展开
-
大数据学习之spark—RDD操作、DAG依赖 shuffle
大数据学习之spark—RDD操作、DAG依赖 shuffle spark: 集批处理,实时流处理,交互式查询,机器学习,图计算为一体 Spark与MapReduce的比较 一个hadoop job 会进行多次的磁盘读写 会有一定的性能瓶颈 spark 允许在内存中缓存输入输出,上一个job结果马上可以被下一个使用 1、RDD(Resilient Distributed Dataset):...原创 2019-02-12 21:41:07 · 257 阅读 · 0 评论 -
大数据学习之Spark—RDD的操作
大数据学习之Spark—RDD的操作 Transformation(变换);Action(执行) Transformation Meaning map 应用于RDD每一个元素,返回值是新的RDD flatMap 扁平化map,对RDD每个元素转换, 然后再扁平化处理 filter 过滤掉不符合元素,返回的都是新的RDD ...原创 2019-02-13 21:10:41 · 176 阅读 · 0 评论 -
TCP粘包问题及解决
// socket: 网络中的进程通过socket通信。模式:open—write/read—close模式 概述: socket发送多端数据时,底层的Tcp会据需要,将数据拆分,合并,组成数据包发送给用户,用户接收后,无法根据Tcp本身判断数据边界——这个文题就称为粘包问题。 解决方案 通信双方约定协议 a、只发送固定长度数据 缺点:不够灵活,只适合每次传输固定长度的数据。 b、约定分隔符,通...原创 2019-02-13 22:25:57 · 111 阅读 · 0 评论 -
HDFS的读取流程、写入流程、删除流程
读流程: 1、客户端通过rpc访问NameNode。(调用fileSystem的open方法,获取distributedFileSystem实例) 2、NameNode查询元数据,获取元数据路径,将文件的全部或部分文件块的存储路径,放入队列,发送给客户端。 3、客户端收到队列(FSDataInputStream对象,封装为DFSInputStream,方便管理DataNode与namenode数据...原创 2019-02-14 13:02:56 · 241 阅读 · 0 评论