一位用javaScript的进行了前端,服务器端,MongoDB,实现了整个应用;
- 云基础设施—Python,java,Go
- DevOps —Python,Shell,Ruby,GO
- 网络爬虫 —Python,PHP,C++
- 数据处理 —Python,R,Scala
1.云基础设施
- 私有云 —OpenStack—Python
- 公有云 —AWS,GCE,Azure,阿里云,青云—提供Python SDK
- Hadoop—MapReduce数据处理不够快,不再作为首选
- Hadoop两个组件—HDFS,Yarn受欢迎
- Hadoop开发语言Java
- 官方无Python支持,第三方库封装了Hadoop的API接口—pydoop,hadoopy
2.DevOps
开发自运维
3.网络爬虫
除了企业有能力产生大量的数据,大部分时候靠爬虫抓取互联网数据来做分析,还有高并发的支持。
并发库
- Gevent,Eventlet,Celery
爬虫框架
- Scrapy
- HTTP工具包urlib2
- HTML解析工具beautifulsoup
- XML解析器lxml
分词处理
- 自然语言处理包—NLTK
- 中文分词—jieba
4.数据处理
数据处理算法:
- 数据挖掘
- 机器学习
- 深度学习理论
R语言—原型实验
Python数据处理相关类库
- 科学计算类库—NumPy,SciPy
- 画图PK Matlab —matploglib
- 机器学习算法 —Scikit-learn,Milk
- Pylearn2 深度学习领域重要成员
- 高性能数学符号计算和多维矩阵计算 — Theano
- Pandas —工程领域广泛使用的大数据类库
- iPython
OpenStack —>200万行代码