Python数据分析,学习路径拆解及资源推荐(附详细思维导图)(上)

关于Python数据分析,其实网上能够找到的学习资源很多,主要分为两类:

一类是提供各种资源的推荐,比如书单、教程、以及学习的先后顺序;

另一类是提供具体的学习内容,知识点或实际案例。

但很多繁琐而又杂乱的内容,除了给初学者增加理解和认识的噪音外,真正能够起到明确的方向指引导的,确实不多。

以至于很多人一开始没有明确的方向就一头扎进去,学了很久却不知道自己到底在学什么,或者自己学了很久不知道能够做什么。

学习一门技术之前,你应该知道,你想要达成的目标是什么样的。

也就是说,你想通过这门技术来解决哪些问题。你就可以知道要达成这样的目标,它的知识体系是怎么样的。

更重要一点的是,每个部分是用来解决哪些问题,只有明确的目标导向,学习最有用的那部分知识,才能避免无效信息降低学习效率

对于数据分析这件事情,有很多的应用场景:

  • 比如你需要进行调研,来了解市场的宏观情况,窥探竞争对手,做可行性分析……
  • 比如你所在的工作部门产生了大量的数据,你需要考虑用这些数据来优化产品、营销、技术方案……
  • 比如你需要对产品、业务、用户进行分析,挖掘出重要结论,给上级提出合理的决策建议……

通过这些常见的数据分析场景,你就可以获得数据分析项目的基本流程。

一般大致可以按“数据获取-数据存储与提取-数据预处理-数据建模与分析-数据报告”这样的步骤来实施一个数据分析项目。

按照这个流程,每个部分需要掌握的细分知识点如下:

高效的学习路径是什么?就是按这样的顺序循序渐进,你会知道每个部分需要完成的目标是什么,需要学习哪些知识点,哪些知识是暂时不必要的。

然后每学习一个部分,你就能够有一些实际的成果输出,有正向的反馈和成就感,你才会愿意花更多的时间投入进去。以解决问题为目标,效率自然不会低。

如何获取数据

我们分析的数据一般有内部数据和外部数据两种。

内部数据是在我们的业务运转中产生,比如常见的用户数据、产品数据、销售数据、内容数据等等。

内部的数据相对来说更加完善、规整,我们经常要做的工作汇报、产品优化等分析数据一般来源于此。

可以找公司的技术人员索要,或者自己去数据库提取。

当然,很多时候,我们需要利用外部的数据。

比如进行市场调研,竞品分析,或者输出报告的时候,外部数据的分析是必不可少的,这也可以帮助我们得出更多的结论。

 公开数据源

UCI:加州大学欧文分校开放的经典数据集,真的很经典,被很多机器学习实验室采用。

国家数据:数据来源于中国国家统计局,包含了我国经济民生等多个方面的数据。

CEIC:超过128个国家的经济数据,能够精确查找GDP、CPI、进出口以及国际利率等深度数据。

中国统计信息网:国家统计局的官方网站,汇集了海量的全国各级政府各年度的国民经济和社会发展统计信息

政务数据网站:现在各个省都在很大程度上地开放政务数据,比如北京、上海、广东、贵州等等,都有专门的数据开放网站,搜索比如“北京政务数据开放”。

2. 网络爬虫

基于互联网爬取的数据,你可以对某个行业、某种人群进行分析。比如:

职位数据:拉勾、猎聘、51job、智联

金融数据:IT桔子、雪球网

房产数据:链家、安居客、58同城

零售数据:淘宝、京东、亚马逊

社交数据、微博、知乎、Twitter

影视数据:豆瓣、时光网、猫眼

……

在爬虫之前你需要先了解一些 Python 的基础知识:元素(列表、字典、元组等)、变量、循环、函数(菜鸟教程就很好)……

以及如何用成熟的 **Python 库(urllib、BeautifulSoup、requests、scrapy)实现网页爬虫。

掌握基础的爬虫之后,你还需要一些高级技巧。

比如正则表达式、模拟用户登录、使用代理、设置爬取频率、使用cookie等等,来应对不同网站的反爬虫限制。

爬虫可以说是最为灵活、有效的数据获取方式,但学习成本相对来说也要高一些。

开始建议先利用公开数据进行分析,后续有更多的数据需求,再上手爬虫。

那个时候你已经掌握了Python基础,爬虫上手也会更轻松。

3. 其他数据获取方式

如果你暂时不会爬虫,但又有采集数据的需求,可以尝试各种采集软件,不需要编程知识也可以轻松爬取信息,比如火车头、八爪鱼等。

很多数据竞赛网站也会公开不错的数据集,比如国外的Kaggle,国内的DataCastle、天池。

这些数据都是真实的业务数据,且规模通常不小,可以经常去搜集和整理。

△ 常用的数据获取方式

数据存储与提取

数据库这个技能放在这里,是因为这是数据分析师的必备技能。

大多数的企业,都会要求你有操作、管理数据库的基本技能,进行数据的提取和基本分析。

SQL作为最经典的关系型数据库语言,为海量数据的存储与管理提供可能。

MongoDB则是新崛起的非关系型数据库,掌握一种即可。

初学建议SQL。你需要掌握以下技能:

1.查询/提取特定情况下的数据:企业数据库里的数据一定是巨量而繁复的,你需要提取你想要的那一部分。

比如你可以根据你的需要提取2017年所有的销售数据、提取今年销量最大的50件商品的数据、提取上海、广东地区用户的消费数据……

2.数据库的增、删、改:这些是数据库最基本的操作,但只要用简单的命令就能够实现。

3.数据的分组聚合、建立多个表之间的联系:这个部分是数据库的进阶操作,多个表之间的关联。

在你处理多维度、多个数据集的时候非常有用,这也让你可以去处理更复杂的数据。

数据库听起来很可怕,但其实满足数据分析的那部分技能不要太简单。

当然,还是建议你找一个数据集来实际操作一下,哪怕是最基础的查询、提取等操作。

读者福利:知道你对Python感兴趣,便准备了这套python学习资料

关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。在这里插入图片描述

二、Python必备开发工具

在这里插入图片描述

三、精品Python学习书籍

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
在这里插入图片描述

四、Python600视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

五、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

六、Python100道练习题

检查学习结果。
在这里插入图片描述

七、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
在这里插入图片描述
在这里插入图片描述

这份完整版的Python全套学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取保证100%免费

​​​​​​​b3218a1cbc494b5b83353f4fcbc0466d.png

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值