贝叶斯数据分析中文版_数据分析学习规划

bce443969bf409c531c822dc18b97f78.gif

目录

  1. 数据分析学习路径
  2. 实战项目

一、学习路径

b234530ea982b29015a95ecd033d72ad.png
数据分析流程(按流程学习)

173333bb5308f60eeacfe9980a75bb10.png

1.1 数据获取

  • 提取已有数据

主要使用SQL对数据库数据进行按要求提取,然后导入分析软件。

涉及的基本操作:数据表的增删查改,最核心的是数据匹配(select、groupby、join)

简易教程:https://www.runoob.com/mysql/mysql-tutorial.html

推荐书目:《MySQL必知必会》(已阅)

SQL练习:

https://sqlzoo.net/wiki/SELECT_from_WORLD_Tutorial (sqlzoo练习)(已完成)

https://leetcode-cn.com/problems/swap-salary/ (leetcode练习)

  • 获取外部数据集

对已有数据进行浏览下载,主要的数据源如下:

http://hao.199it.com/(91大数据)

  • 网络爬虫获取外部数据

互联网上的信息潜藏着巨大价值,而这些价值往往不易挖掘,网络爬虫能够获取类型多样且数据量大的样本,帮助我们更好进行分析决策。

爬虫软件:

https://www.bazhuayu.com/(八爪鱼)

http://www.gooseeker.com/(集搜客)

利用python进行爬虫:

requests库(信息爬取)+beautifulsoup4库(信息解析)+re(辅助信息查找匹配)

教程:

https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id11(bs4库)

https://docs.python.org/zh-cn/3.7/howto/regex.html(正则表达式)

https://www.bilibili.com/video/av9784617?from=search&seid=16210003923248427122(简易爬虫视频教程)

小项目:中国大学排名以及道指股票信息爬取,源代码如下:

eliwchen/web-crawler​github.com
d74aaa8cbbb6f79541d6aafaf85a01b0.png
Python3爬虫三大案例实战分享 - 天善智能-商业智能和大数据在线社区,用心创造价值​edu.hellobi.com
875b553ea40e9cb8e61c742a707bcdd3.png

1.2数据预处理

数据预处理的主要任务在于对以获取的数据进行清理(去重、缺失值处理、格式处理等),按照分析要求进行数据整合(添加行列、索引、切片、分组、数据透视等),主要的工具是Excel、python中的pandas库。

学习资料:pandas中文手册(简易版)https://www.pypandas.cn/docs/getting_started/10min.html#%E5%AF%B9%E8%B1%A1%E5%88%9B%E5%BB%BA

pandas中文手册(官方版本):https://www.pypandas.cn/docs/

推荐书籍:利用Python进行数据分析 (豆瓣)(已阅)

pandas练习:https://github.com/guipsamora/pandas_exercises(已完成)

pandas练习源代码:

eliwchen/pandas_excercise​github.com
d74aaa8cbbb6f79541d6aafaf85a01b0.png

1.3数据建模与分析(机器学习)

  • 基础知识(概率论与统计分析、数据结构与算法)

数据描述性统计(均值、方差、中位数、变量分布、假设检验)、重要概念是会描述性统计、假设检验、贝叶斯、极大似然法、回归(特别是广义线性回归)、主成分分析。

推荐书籍:《商务与经济统计学》、深入浅出统计学 (豆瓣)

数据结构与算法:慕课网《数据结构与算法python版》

书籍:《算法设计技巧与分析(中文版) 阿苏外耶 著》

数据结构与算法Python版_中国大学MOOC(慕课)​www.icourse163.org
7d5fa0762a8bd52d0c331a3721bfb289.png
  • 机器学习算法

主要算法有分类(决策树、支持向量机、贝叶斯网络)、回归、关联规则、主成分分析等,使用的python库为sklearn:https://scikit-learn.org/stable/index.html

要求:机器学习会使用(调参+选模型+优化)

慕课网教程:《商务数据分析-机器学习》

商务数据分析_中国大学MOOC(慕课)​www.icourse163.org
453f233d65b6467fcaa253f978dca5ee.png

推荐书籍:《机器学习实战》

1.4数据可视化

python中的seaborn库和matplolib库,如果习惯用Excel,那么power bi必不可少。

56dcfff77f60873af8a9328dfaa2fe62.png
Microsoft Power BI 指导式学习 - Power BI​docs.microsoft.com
a977673cb682c5f785158c180b59d6b6.png

seaborn与matplotlib练习源代码:

eliwchen/pandas_excercise​github.com
d74aaa8cbbb6f79541d6aafaf85a01b0.png

senborn库主要用于探究变量关系

93c2d446987f0c515cd5611da54af6c9.png

4518d916b729d928cdccf4556099197d.png

seaborn: statistical data visualization

ba9791926ed62a27ce9b06d139a1dc44.png

https://www.matplotlib.org.cn/

二、实战项目(待练习)

DataCastle 为数据分析师专门定制的三个竞赛:

员工离职预测训练赛-竞赛信息-DC竞赛​www.pkbigdata.com
7ec41ae871b5bbcba2dd2d1b3e2d5038.png
美国King County房价预测训练赛-竞赛信息-DC竞赛​www.pkbigdata.com
6b4207a025e05730161b1224feb5f193.png
北京PM2.5浓度回归分析训练赛-竞赛信息-DC竞赛​www.dcjingsai.com
0de25faca882cc100ff0787ab418f216.png

以及其他平台项目竞赛:

Datasets | Kaggle​www.kaggle.com 天池大数据众智平台-阿里云天池​tianchi.aliyun.com
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值