实习日志

2018年1月3日

公司报道第一天。认路,认位置,学长导师让我熟悉简单的java程序,学习Spark,Scala.

2018年1月4日

了解jdbcTemplate用法,了解ODPS核心接口,重新学习了Spring @Scheduled 注解的一些方式。看了关于阿里数加平台的一些思考。

2018年1月5日

学习Scala基本语法。初步了解Spark生态

2018年1月8日

学习Spark相关概念。了解RDD常见的API,例如map,reduce等。

2018年1月9日

复习这几天掌握的内容。了解公司集群架构,在集群上运行了简单的wordCount程序。学习spark-shell用法。

2018年1月10日

学习RDD复杂算子。包括mapPartitionsWithIndex、aggregate、combineByKey等等。

2018年1月11日

学习自定义分区器、RDD的cache和Checkpoint、存储级别、宽依赖和窄依赖、RDD中的DAG、stage的划分,stage中Task的数量。

2018年1月12日

学习广播变量、利用foreachPartition将数据写入数据库、jdbcRDD,SparkSQL的基本使用(DataFrame API,DataSet)。

2018年1月25日

继续学习SparkSQL,学习自定义函数。

2018年1月29日

使用数加-DataWorks,编写排序SQL,用到coalesce、ROW_NUMBER() over(ORDER BY action_1/action_0 DESC)。

2018年1月30日

看阿里云数加平台数据集成(文档),学习基于MySQL的数据读写脚本开发。

2018年1月31日

成功调试同步MySQL,错误原因是因为源数据存在多个空值,在做同步之前需要进行数据清理。

=======1月份小结========

这个月里请假了一大半回校参加答辩。赶着回来参加了公司的年会,还中了小奖。前两周一直在看Spark和scala的视频,在集群上跑了经典的wordcount。后来在公司前辈同事的指导下,在DataWorks上完成了一项SQL任务及其对应的同步任务(总算做了点事)。虽然在公司没待多久,但还算学到不少东西。

=======1月份小结(再工作几天就放假了~)========

2018年2月1日

学习MongoDB,修改之前的排序任务。主要用到对时间操作的几个函数(to_date,to_char,date_add)。

2018年2月2日

配置windows的mongo环境,并且安装了InteliJ mongo插件、mongo可视化管理软件robo。

2018年2月5日

复习mongo java API,了解常用的一些mongo查询优化策略,主要还是利用索引、explain查询执行计划,然后针对性地进行优化。

2018年2月6-7日

生病、无心学习。

2018年2月8日

添加统计任务的新字段(spark程序),测试。

2018年2月9日

添加同步任务新字段(数加)、新增odps字段、测试。

2018年2月11日

将前两天修改的任务提交到生产环境,并测试通过。

2018年2月12日

补充测试环境的数据生成、重新建表,重新走流程。

2018年2月13日

今天是实习的最后一天。被召集开了个会,了解一下接下来要做的项目需求。对年后的工作做了一些安排。

实习到今天结束。感觉从web到大数据的转型没想象中的简单。特别是对一些大数据中常用的组件的理解不够深入。距离正式入职还有一段时间,希望这段时间自己能多看看相关的技术介绍。为来年正式入职做好铺垫。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值