这篇文章会分成以下 7 个部分:
- 开发环境准备
- PySpark 基础:基于 Dataframe 的 wordcount 实现
- PySpark MLlib 基础-自动化特征工程
- Tensorflow 基础:Tensorflow 的编码套路
- 深度学习与 NLP 基础:如何用深度学习完成 NLP 相关工作
- Spark 和 Tensorflow 整合:如何深度集成 Spark 和 Tensorflow
- 一个完整应用案例 :利用卷积网络做文本分类
通过本场 Chat,读者可以入门 PySpark, Spark MLlib, Tensorflow 的使用,以及深度学习和 NLP 的结合。对于架构师,还能学习到如何实现 Spark 和 Tensorflow 的互通,形成完整的 Pipeline。 这篇文章也是我前一段时间的工作总结,我 fork 了 databricks 公司的一个项目并且做了增强(点击查看)。
阅读全文: http://gitbook.cn/gitchat/activity/5a38e8078bfed71461ad64a3
您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。