开启程序员之路---上班感悟

上班快两个月了,工作不是很忙,与之前的区别是:可以看着真正的需求,真实的项目将之前学的知识系统化,
之前喜欢专研一个知识点,由点及面的拓展知识,所以,上班没有太手忙脚乱的感觉

大数据在实际运用中spark部分sparkSql会用的比较多,因为它可以将各种结构化和非结构化的数据转换成自己的数据集,并且提供的两种风格的语法,可以实现大部分对数据增删改查的处理逻辑,当然sparkstreaming在实时项目中的使用也是很实用的

sparkSql的数据源
可以通过spark.read后生成的dateframeReader类提供的方法(如:jdbc(可以连接各种数据库,获取其中的数据),format(指定读取数据的格式).load(将数据加载进来)),将指定的数据生成dateFrame或者DateFrame,方便使用其算子进行处理

同时sparkSql也提供了将数据保存到指定工具的方法
dateFrame.write后生成dateFrameWrite类,使用该类提供的方法(如:jdbc(将结果写入指定的数据库),format/json/csv/parquet/text(指定数据保存的格式).save/saveAsTable(写入表或者别的路径)))

Kafka的偏移量是一个重点,Kafka自己提供的方法是利用zookeeper来保存偏移量,但是会存在偏移量不准确,数据丢失等问题,另一种方法是手动的保存偏移量,一般会创建一个表,将某topic 本批次处理数据的起始偏移量与本批次处理数据的终止偏移量一起保存下来,这样更直观,方便后期查看

任务调度
学习的时候使用oozie进行任务的调度和定时执行
首先在workflow.xml文件中写好程序执行的流程,走向,会执行的脚本文件,参数等 。。此文件必须放在hdfs路径下
在coardinator.xml文件中指定任务执行时间和触发的条件,系统参数等。。此文件必须放到hdfs路径下
在job.properties文件中对workflow.xml文件coardinator.xml中的参数赋值,指定两文件的保存路径
最后使用oozie job …命令提交作业
其实hue浏览器页面中操作更加直观,拖拉拽,先生成workflow工作流,再生成coordinator定时任务

关于Git
代码管理,版本控制的软件,个人用GitHub,商业使用GitLab
使用Git有两种连接方式,一种是SSH,一种是HTTP,两者的优势我没有关注,ssh可能会更安全,要配置免密,给客户端连接的权限,配置方式(在Windows+R的命令行窗口中输入 ssh-keygen -t rsa 生成密钥,cat ~/.ssh/id_rsa.pub查看密钥,复制一下,粘贴到git浏览器菜单栏设置下的SSH密钥的文本框中,保存即可),此时,已经拥有拉去和上传代码的权限,但要谨慎操作,毕竟写代码不易,除问题很麻烦。网上关于Git命令的介绍很多,多用git pull ,谨慎使用。。
提醒:自己的代码在idea中创建项目时保存在自己的路径下,不要和git仓库放在一起,保证大家代码的安全

悄悄的感谢我的主管,给了我实践的机会
还没有入职的朋友们要加油噢,努力就可能成功,不努力成功肯定找不到你

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值