终于有那么一丢丢时间,可以来把关于R语言编程的工作梳理一下。
总体来说,工作内容主要是将公司已有的excel模板的数据分析内容转为R语言形式,目前写了四个产品的数据清洗和分析代码。
在这中间,学习到了很多新知识。对接下来,编程之路的走向有了初步的规划。对数据分析这块也增加了认识吧。
关于新知识:
1、较大数据的处理来说,学习了data.table包,感觉是非常强大的。
所做的工作是将之前基于data frame的计算代码转成了data.table的形式来进行运算,效率是有提升的。因为data.table本身的DT[ ]是具有一定功能的,当然更多的功能还在继续学习中。
2、数据整理,进一步熟练了tidyr,dplyr等r包的使用。
比如使用seperate来实现excel中的分列功能。
使用merge来实现excel中的vlookup功能。
多种方法来剔除缺失值,比如按照缺失比例删除等。或剔除特定的数据,这里主要基于filter系列的函数进行,例如filter_at等。
关于时间在R语言里的转换等问题也进行了整理。
3、数据分析思路上,更多的考虑使用简小的代码,而非使用过多的for循环等。
关于数值计算,要考虑矩阵化运算。
4、还有tidyverse这个加载包的神器,开发者当然是哈德利大神,简直是我偶像了。
5、还有其他一些零零碎碎的内容就不细说了。
更多的使用pply函数。
能不用循环就不用,尽量寻找哈德利大神写的种种函数,哈哈这个也很重要哦。
总的来说,还是需要投机取巧一些的。
关于接下来的学习路径:
1、advanced R和R数据科学两本书要刷完,第一本年底前看完吧,第二本的话11月底。
2、R中常做的统计分析要自己做一个总结,这个可以参考R语言实战的介绍。
3、关于测量学方面的知识,可以将R IRT那本书作为参考。大概看一遍吧,完成期限为年底前。
数据分析:
这依然是我的兴趣方向,因为从数据中看到很多问题真的很有意思。
但是近段时间的了解,感觉数据分析在职业的上升通道上是有瓶颈的。
因此数据分析作为工具,用的好,当然好,但主攻它对个人来说,价值似乎没有那么高。当然我说的只是普通的数据分析,AI那些属于另一个世界了。
所以,还是需要发散思路,广开视角吧,不要把自己限制在自己的安逸区了,当然不能忽视提高自己这方面的技能。
目前的目标还是把R&数据分析搞个底朝天吧。
就近期的工作心境来说,似乎紧张的次数变少了,现在几乎没有了,这是好事吗,也不尽然,毕竟不紧张在一定程度上也说明了不太关注。
但就工作内容的完成情况来说,个人是满意的,毕竟每个工作都在最大能力内做到自己满意了。通过这段时间的工作,感觉自己能力也有不少提高吧,特别是在调研能力和PPT制作&汇报能力上(入职以来感觉每周都要报告。。。让人头冷)。
啊对,我还要练习英语口语。希望一个月之后能有个提高吧。