python学习网址:
http://bbs.fishc.com/forum-243-1.html
http://www.icourse163.org/course/BIT-1002058035
网络爬虫:
http://blog.csdn.net/l1028386804/article/details/48983719
大数据:
https://www.edx.org/
https://databricks.com/
http://www.ibeifeng.com/category-37-b0.html
csdn:
http://edu.csdn.net/course/detail/2240
http://edu.csdn.net/courses/o317
https://www.coursera.org/
https://www.coursera.org/learn/profun1 scale学习
https://www.edx.org/course?search_query=spark spark
http://www.dajiangtai.com/ 大讲台
2. 熟练使用scala语言编程
3. 掌握spark-streaming
4. 熟悉Elasticsearch logstash
5. 理解hadoop的分布式文件系统,掌握mapreduce原理,实现编码
6. 熟悉hive的工作原理,了解数据仓库建立,完成对数据主题抽取和多维分析
7. 熟练使用sqoop工具,实现非关系型数据库与关系型数据库表数据互导
8. 理解Hbase的存储原理,Hbase存储架构,实现数据的毫秒检索
9. 掌握redis内存数据库的基本原理,实现数据的毫秒查询
10. 掌握kafka、flume数据采集工具的原理,实现流式数据的过滤和分析
11. 理解Impala的工作原理,对海量数据快速查询
12. 掌握使用scala语言编程,理解Spark 掌握Spark Streaming流式处理技术,对流式数据在线处理分析以及对出现的问题进行排查,性能调优
13. 掌握利用Spark SQL进行数据处理、查询、统计
14. 能阅读英文技术文档。具备良好的文档写作能力
15. 熟练使用Linux操作系统,编写shell脚本
16. 熟练JavaEE常见框架,并具备相关的开发经验