全栈数据之路-数据科学杂货铺

这门课程由资深数据专家讲解,涵盖了从Linux、Python基础到Hadoop、Spark的分布式计算,再到数据库技术、深度学习的全栈数据科学知识。通过学习,你将掌握数据科学中的SQL、统计基础、数据处理、特征工程,以及机器学习和深度学习算法。课程强调实践应用,帮助你在数据科学领域建立扎实的基础并提升实际操作能力。
摘要由CSDN通过智能技术生成

感谢关注天善智能,走好数据之路↑↑↑

欢迎关注天善智能,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习,问答、求职一站式搞定!

天善智能社区地址:https://www.hellobi.com/

课程地址:https://edu.hellobi.com/course/223

课程标题

全栈数据之路-数据科学杂货铺


讲师介绍

任柳江,网名云戒。有近10年经验的Linux及Emacs重度用户,熟悉Python及其Web开发、机器学习生态环境。熟悉大数据环境Hadoop、Hive、Spark。

曾在2008年组织创建Linux电子杂志《桃源》。做过安全测试和开发,同时具有开发的能力和测试的思维。爱好易学与佛学,目前专攻大数据与机器学习。

新书《全栈数据之门》在2017年04月,正式上架各大电商平台。


课程特色

基于《全栈数据之门》这本书,有很多新的内容和扩展。

执利器而守重镇——Python很强大的领域在数据科学

窥全貌而知路径——整合Linux|Python|SQL|Hadoop|Hive|Spark|数据挖掘|机器学习|深度学习

知原理而致应用——全栈数据既指数据技术,也指业务数据,生产环境是结尾的检验场。

立平台而生数据——建设强大数据平台,是支撑产品也业务的必由之路。


课程内容

1. 平台技术

1.分布式计算平台 (Hadoop)

Google的论文:hdfs与map-reduce

Yahoo实现的开源版本

三大平台:Cloudera/Hortonworks/DataStax

2. 深度学习平台(GPU)

Nvidia: 显卡

Linux环境

cuda环境

intel-mkl

cudnn

重点:环境搭建,部分做数据分析的人,可能会卡在环境的搭建上,主要需要Linux技能。

2. 全栈基础

1.SQL技术

2.Linux及Shell, vim/find/grep/sed/awk/git

3.统计、概率基础

4.编程能力(以工程为导向)

5.大数据框架

6.数据处理&算法

7.笔记与文档(markdown)

重点:全面的熟悉数据科学中的知识点。

3. 分布式技术

1.hadoop(hdfs&mr)

2.Hive(sql)

3.Spark(rdd,df,sql)

4.Sqoop

5.Hbase/Cassandra

6.采集与消息队列:Flume/Kafka/Storm

7.全文索引(solr, elasticsearch)

重点:熟悉处理海量数据的常用工具,存储与分析,每个工具的适用场景

4. 数据库技术

1.MySQL

2.Postgresql

3.MongoDB

4.Redis

重点:数据库是数据分析中最常用的依托,熟悉SQL语句,以及如果使用Python来进行数据处理。

5. 语言技术

1.SQL语句(常用join语句)

2.python

python2与python3的问题

库:numpy, pandas, scikit-learn,nltk, pyltp, pyspark、anaconda

3.R

学术界,快速建模

4.Scala、java

重点:学习语言,是自动化处理数据和建模的必备工具,SQL必备,Python与R至少需要熟悉一种。要工程应用,Python是必备。

6. 数据挖掘

1.数据采集:rsync, api, MQ, 爬虫(scrapy)

2.数据清洗:SQL,Linux,py,R

3.特征工程:特征选择,特征变换

4.算法建模:各种框架与算法

5.模型评估:precision,recall,f1,mse

6.应用与可视化

重点:了解数据处理的一些常用方法,理解特征工程的方法,熟悉主流挖掘算法的基本过程,会调用相应的库来建模,理解算法评估的常用指标。

7. 机器学习

1.聚类、分类、回归

kmeans, knn, logistic regression, linear regression, navie bayes, 决策树、随机森林、神经网络、Xgboost

2.自然语言处理

CRF、分词、实体识别、语义分析,word2vec,深度学习(cnn,rnn)

3.个性推荐,用户画像

4.深度学习

应用(非结构化):图片,语音,视频,自然语言处理

算法:auto encoder, cnn, rnn, lstm

框架:tf/keras/mxnet/caffe/pytorch

5.遗传算法:优化,ga, gp

重点:理解主流算法的应用场景及其主要参数,熟悉自然语言处理中一些基本的方法,理解深度学习的主要思想,熟悉一、两个深度学习框架,能使用迁移学习做一些图片分类的任务。

8. Web与可视化

1.Excel, matplotlib, seaborn

2.Django/Flask,JS/Html5/css3(Web开发)

3.superset(druid, mysql, postgresql, 简单易用的数据可视化界面)

4.zeppelin(支持分布式环境的Web笔记)

5.beakernotebook(ipython、jupyter,支持多种语言的Web笔记)

6.Orange3(图形化的数据挖掘工具)

7.airflow(Data pipeline监控)

8.DataScienceStudio(基于Web的数据分析、建模工具)

重点:数据可视化工具,数据可视化挖掘工具,交互式笔记工具,事半功倍的工具,数据分析入门的好工具,个人珍藏收集。

9. Spark全栈

1.RDD/DataFrame

2.ML/MLLib

3.SQL

4.Streaming

5.GraphX(PageRank)

6.spark/pyspark/sparkR

重点:当今世界最流行、不可多得的、分布式的,全栈数据处理、分析、挖掘环境。

10. H2O框架

1.h2o-flow(基于Web的自动化建模环境)

2.算法(drf, gbdt, word2vec,glrm)

3.sparkling water(结合Spark的优势)

4.deepwater(深度学习环境)

5.steam(建模与部署一体化)

重点:如生命离不开水一般,简单、优雅的数据挖掘、深度学习环境。高效的算法执行速度,高精度的算法产出。


课程地址:https://edu.hellobi.com/course/223

天善智能社区地址:https://www.hellobi.com/

天善学院svip正限时特惠火爆报名中!包含业务知识一站通、Excel BI商业智能、七周成为数据分析师、对话大数据系列技术、R语言15案例、Python3网络爬虫实战案例、Python机器学习、Python数据科学家精华实战课程、深度学习模型和实战课程、数据分析报告共10套课程,其他课程只需五折即可,欢迎大家关注报名。https://www.hellobi.com/svip

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值