目录
- 数据分析学习路径
- 实战项目
一、学习路径
1.1 数据获取
- 提取已有数据
主要使用SQL对数据库数据进行按要求提取,然后导入分析软件。
涉及的基本操作:数据表的增删查改,最核心的是数据匹配(select、groupby、join)
简易教程:https://www.runoob.com/mysql/mysql-tutorial.html
推荐书目:《MySQL必知必会》(已阅)
SQL练习:
https://sqlzoo.net/wiki/SELECT_from_WORLD_Tutorial (sqlzoo练习)(已完成)
https://leetcode-cn.com/problems/swap-salary/ (leetcode练习)
- 获取外部数据集
对已有数据进行浏览下载,主要的数据源如下:
http://hao.199it.com/(91大数据)
- 网络爬虫获取外部数据
互联网上的信息潜藏着巨大价值,而这些价值往往不易挖掘,网络爬虫能够获取类型多样且数据量大的样本,帮助我们更好进行分析决策。
爬虫软件:
https://www.bazhuayu.com/(八爪鱼)
http://www.gooseeker.com/(集搜客)
利用python进行爬虫:
requests库(信息爬取)+beautifulsoup4库(信息解析)+re(辅助信息查找匹配)
教程:
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id11(bs4库)
https://docs.python.org/zh-cn/3.7/howto/regex.html(正则表达式)
https://www.bilibili.com/video/av9784617?from=search&seid=16210003923248427122(简易爬虫视频教程)
小项目:中国大学排名以及道指股票信息爬取,源代码如下:
eliwchen/web-crawlergithub.com1.2数据预处理
数据预处理的主要任务在于对以获取的数据进行清理(去重、缺失值处理、格式处理等),按照分析要求进行数据整合(添加行列、索引、切片、分组、数据透视等),主要的工具是Excel、python中的pandas库。
学习资料:pandas中文手册(简易版)https://www.pypandas.cn/docs/getting_started/10min.html#%E5%AF%B9%E8%B1%A1%E5%88%9B%E5%BB%BA
pandas中文手册(官方版本):https://www.pypandas.cn/docs/
推荐书籍:利用Python进行数据分析 (豆瓣)(已阅)
pandas练习:https://github.com/guipsamora/pandas_exercises(已完成)
pandas练习源代码:
eliwchen/pandas_excercisegithub.com1.3数据建模与分析(机器学习)
- 基础知识(概率论与统计分析、数据结构与算法)
数据描述性统计(均值、方差、中位数、变量分布、假设检验)、重要概念是会描述性统计、假设检验、贝叶斯、极大似然法、回归(特别是广义线性回归)、主成分分析。
推荐书籍:《商务与经济统计学》、深入浅出统计学 (豆瓣)
数据结构与算法:慕课网《数据结构与算法python版》
书籍:《算法设计技巧与分析(中文版) 阿苏外耶 著》
数据结构与算法Python版_中国大学MOOC(慕课)www.icourse163.org- 机器学习算法
主要算法有分类(决策树、支持向量机、贝叶斯网络)、回归、关联规则、主成分分析等,使用的python库为sklearn:https://scikit-learn.org/stable/index.html
要求:机器学习会使用(调参+选模型+优化)
慕课网教程:《商务数据分析-机器学习》
商务数据分析_中国大学MOOC(慕课)www.icourse163.org推荐书籍:《机器学习实战》
1.4数据可视化
python中的seaborn库和matplolib库,如果习惯用Excel,那么power bi必不可少。
seaborn与matplotlib练习源代码:
eliwchen/pandas_excercisegithub.comsenborn库主要用于探究变量关系
seaborn: statistical data visualization
https://www.matplotlib.org.cn/
二、实战项目(待练习)
DataCastle 为数据分析师专门定制的三个竞赛:
员工离职预测训练赛-竞赛信息-DC竞赛www.pkbigdata.com以及其他平台项目竞赛:
Datasets | Kagglewww.kaggle.com 天池大数据众智平台-阿里云天池tianchi.aliyun.com