我是故意来地球的
码龄9年
关注
提问 私信
  • 博客:13,480
    13,480
    总访问量
  • 12
    原创
  • 1,393,016
    排名
  • 4
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2015-11-06
博客简介:

qq_32603475的博客

查看详细资料
个人成就
  • 获得2次点赞
  • 内容获得1次评论
  • 获得21次收藏
创作历程
  • 2篇
    2021年
  • 1篇
    2020年
  • 9篇
    2019年
成就勋章
TA的专栏
  • HDFS
    6篇
  • spark
    2篇
  • hadoop教程
    5篇
  • 大数据
    8篇
  • flume
    1篇
  • HBase
    1篇
  • 外网访问内网hadoop
    1篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

2024 博客之星年度评选报名已开启

博主的专属年度盛宴,一年仅有一次!MAC mini、大疆无人机、华为手表等精美奖品等你来拿!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

sparkRDD函数详解

这里写目录标题1、RDD操作详解1.1 基本转换1) map2) filter3) flatMap4) mapPartitions5) mapPartitionsWithIndex6) mapWith7) flatMapWith8) coalesce9) repartition10) randomSplit11) glom12) union并集13) distinct14) intersection交集15) subtract16) subtractByKey17) groupbyKey18) reduce
原创
发布博客 2021.04.29 ·
211 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

hive函数

目录1、Hive函数介绍以及内置函数查看1)查看系统自带的函数2)显示自带的函数的用法3)详细显示自带的函数的用法2、常用函数介绍关系运算1、等值比较: =2、不等值比较: <>3、小于比较: <4、小于等于比较: <=5、大于比较: >6、大于等于比较: >=7、空值判断: IS NULL8、非空判断: IS NOT NULL9、LIKE比较: LIKE10、JAVA的LIKE操作: RLIKE11、REGEXP操作: REGEXP数学运算:1、加法操作: +2、减法操
原创
发布博客 2021.04.27 ·
3284 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hadoop中yarn容错机制

在yarn中,由于是分布式计算框架,一个作业(job)可能运行在不同的的计算节点中,也就是分而治之。那么如果一个job中的某个task由于某种原因,而出现故障,那么,yarn是如何容错的?任务失败最常见的情况就是1、mapTask或者reduceTask中由于代码原因抛出异常,jvm在关闭之前,会通知mrAppMaster这个task任务失败,在mrAppMaster中,就任务标记为失败,并...
原创
发布博客 2020.01.03 ·
1034 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

spark本地调试内网hdfs

spark读取hdfs文件原理 /**获取具有任意输入格式的Hadoop文件的RDD * * 因为Hadoop的RecordReader类对每条记录重新使用相同的可写对象, * 所以直接缓存返回的RDD或直接将其传递给聚合或无序处理操作将创建同一对象的多个引用。 * 如果计划直接缓存、排序或聚合Hadoop可写对象,您应该首先使用“map”函数复制它们。 * @pa...
原创
发布博客 2019.12.20 ·
350 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

java.lang.NullPointerException: Expected timestamp in the Flume event headers, but it was null

在写入hdfs的时候,使用了时间,但是本地没有打开需要加上配置a1.sinks.s1.hdfs.useLocalTimeStamp = true
原创
发布博客 2019.11.25 ·
226 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HBase中的setCache、setMaxResultSize、setBatch

setCache()客户端通过Rpc一次拉去几条数据(一个KeyRow对于一条数据)setMaxResultSize()客户端拉去的数据保存到本地缓存的字节数组大小(每次拉取数据最新的数据都会保持到该文件,覆盖的为最近一次拉取的数据),客户端在查询数据的时候,会先在本地缓存文件中查找,如果不存在,才会去服务端拉取setBatch()客户端通过Rpc一次拉去几条数据最大的列数...
原创
发布博客 2019.11.14 ·
516 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hadoop之HDFS读写流程

HDFS写流程HDFS写流程步骤创建文件1、客户端调用DistributedFileSystem.create()方法Rpc方式(ClientProtocol.create())远程调用NameNode(NameNodeRpcServer)的create()方法在HDFS上创建文件。2、NameNode将该事务操作保持到edits.log文件当中3、NameNode.create()创...
原创
发布博客 2019.10.25 ·
369 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hadoop之HDFS基础概念(二)

HDFS架构大多数分布式框架都是主从架构HDFS也是主从架构1、namenode:主节点,也成管理节点、名称节点2、datanode:从节点,
原创
发布博客 2019.10.18 ·
1071 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hadoop之HDFS基础概念(一)

HDFS是什么1、HDFS是hadoop的一个存储子模块。2、HDFS(全称Hadoop Distributed File System),即为hadoop的分布式文件系统3、File System:文件系统,cao
原创
发布博客 2019.10.14 ·
393 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

内网搭建hadoop集群外网访问

dfs.client.use.datanode.hostname当hadoop集群使用内网搭建,使用外网访问hadoop,上次或者下载文件时,是没办法直接访问datanode。解决方式:第一步:在开发机器上的hosts中做datanode的ip映射第二步:在hdfs-site.xml配置 <property> <name>dfs.client.u...
原创
发布博客 2019.10.11 ·
3572 阅读 ·
2 点赞 ·
1 评论 ·
5 收藏

hadoop机架感知原理

什么是机架感知在hdfs中,存储文件是按照block块存储在不同的服务器磁盘上,一个block默认大小为128M,一个大的文件会被分为N个block存储。block会会有副本,hdfs默认副本个数为3个。机架感知就是为了解决hdfs存储的高效和安全性:客户端上传文件,文件的第一个block会存储在客户端所在的datanode,或者是第一个datanode。在默认情况下机架感知是未被开启。...
原创
发布博客 2019.10.11 ·
1283 阅读 ·
0 点赞 ·
0 评论 ·
9 收藏

ssh远程免密码登陆注意事项

ssh远程免密码登陆注意事项.ssh和authorized_keys权限设置在权限上,linux出于安全性考虑,不让其他用户范围,linux对于权限有了一定的限制。.ssh文件必须为700权限,authorized_keys必须为600权限。如果你已经将公钥和密钥都发送给了相关的计算机,还是不能免密码,需要检查一下被请求登录的计算机.ssh文件夹和autorized_keys的权限ssh-c...
原创
发布博客 2019.09.30 ·
235 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏