2018年1月3日
公司报道第一天。认路,认位置,学长导师让我熟悉简单的java程序,学习Spark,Scala.
2018年1月4日
了解jdbcTemplate用法,了解ODPS核心接口,重新学习了Spring @Scheduled 注解的一些方式。看了关于阿里数加平台的一些思考。
2018年1月5日
学习Scala基本语法。初步了解Spark生态
2018年1月8日
学习Spark相关概念。了解RDD常见的API,例如map,reduce等。
2018年1月9日
复习这几天掌握的内容。了解公司集群架构,在集群上运行了简单的wordCount程序。学习spark-shell用法。
2018年1月10日
学习RDD复杂算子。包括mapPartitionsWithIndex、aggregate、combineByKey等等。
2018年1月11日
学习自定义分区器、RDD的cache和Checkpoint、存储级别、宽依赖和窄依赖、RDD中的DAG、stage的划分,stage中Task的数量。
2018年1月12日
学习广播变量、利用foreachPartition将数据写入数据库、jdbcRDD,SparkSQL的基本使用(DataFrame API,DataSet)。
2018年1月25日
继续学习SparkSQL,学习自定义函数。
2018年1月29日
使用数加-DataWorks,编写排序SQL,用到coalesce、ROW_NUMBER() over(ORDER BY action_1/action_0 DESC)。
2018年1月30日
看阿里云数加平台数据集成(文档),学习基于MySQL的数据读写脚本开发。
2018年1月31日
成功调试同步MySQL,错误原因是因为源数据存在多个空值,在做同步之前需要进行数据清理。
=======1月份小结========
这个月里请假了一大半回校参加答辩。赶着回来参加了公司的年会,还中了小奖。前两周一直在看Spark和scala的视频,在集群上跑了经典的wordcount。后来在公司前辈同事的指导下,在DataWorks上完成了一项SQL任务及其对应的同步任务(总算做了点事)。虽然在公司没待多久,但还算学到不少东西。
=======1月份小结(再工作几天就放假了~)========
2018年2月1日
学习MongoDB,修改之前的排序任务。主要用到对时间操作的几个函数(to_date,to_char,date_add)。
2018年2月2日
配置windows的mongo环境,并且安装了InteliJ mongo插件、mongo可视化管理软件robo。
2018年2月5日
复习mongo java API,了解常用的一些mongo查询优化策略,主要还是利用索引、explain查询执行计划,然后针对性地进行优化。
2018年2月6-7日
生病、无心学习。
2018年2月8日
添加统计任务的新字段(spark程序),测试。
2018年2月9日
添加同步任务新字段(数加)、新增odps字段、测试。
2018年2月11日
将前两天修改的任务提交到生产环境,并测试通过。
2018年2月12日
补充测试环境的数据生成、重新建表,重新走流程。
2018年2月13日
今天是实习的最后一天。被召集开了个会,了解一下接下来要做的项目需求。对年后的工作做了一些安排。
实习到今天结束。感觉从web到大数据的转型没想象中的简单。特别是对一些大数据中常用的组件的理解不够深入。距离正式入职还有一段时间,希望这段时间自己能多看看相关的技术介绍。为来年正式入职做好铺垫。