python自学路线——大数据方向

最新推荐文章于 2025-03-13 17:53:47 发布

嵌入式悦翔园

最新推荐文章于 2025-03-13 17:53:47 发布

阅读量1.2w

点赞数 13

文章标签：可视化数据库 python 数据分析人工智能

本文链接：https://blog.csdn.net/qq_45172832/article/details/104583961

版权

本文详细介绍了大数据方向的学习路径，包括理解大数据概念、数据获取方法、数据处理技巧和数据存储方案，适合初学者规划学习路线。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

☞☞☞点击查看更多优秀Python博客☜☜☜

Hello大家好，我是你们的朋友JamesBin上篇文章Python自学我们分析了自学python到底有没有用，那么下面这几篇文章我们就来看看自学python的路线应该如何规划
我们的学习路线呢？下面让我们首先看一下大数据方向的路线吧！

大数据方向

什么是大数据

"大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样捷径，而采用所有数据进行分析处理。大数据的5V特点（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性）。

在这里插入图片描述

大数据学习大纲

大数据学习大纲：(大纲来源：https://www.zhihu.com/people/RickyFine)

数据分析的思维和方法
Excel进阶
数据库和SQL入门
数理统计学
数据分析软件应用
数据可视化
常见的业务分析模型
Python/R语言掌握
业务理解和指标设计
增长黑客：数据驱动增长

在这里插入图片描述

获取大数据

获取大数据的方法主要有一下几种：

国家数据库：中国铁路交通数据、城市监控录像等；
企业数据：淘宝交易数据、淘宝购物车收藏数据、京东购物数据；
机器设备数据:GPS导航系统数据、车仪数据等；
个人数据：个人日常生活产生的数据。

大数据的获取主要是从已有的资源中进行数据分析，从而得到自己想要的信息，再将信息进行分析利用。在获取到数据之后最重要的步骤还是看到数据具体张什么样子，有什么特点和规律。得到特点和规律之后根据我们的而具体需求进行贴标签分类处理。只有这样我们才能从复杂的数据中得到不易发现但是价值更大的信息。
在获取数据的时候我们需要注意的是中国相关法律的规定，特别是爬虫爬取到的数据，我们应遵守相关法律。不得做违反法律的事情。

数据分析

学习路线

我将大数据的学习路线分为以下几步：
在这里插入图片描述

第一步：了解大数据的基本概念

我们想要学习一个新知识，首先需要的就是知道他是什么？有什么作用？
这个过程中我们应该能够懂得一些专业术语，能够使用基本的获取数据的方法，既然学习大数据我们级应该首先知道什么是大数据，大数据是用来干什么的，以免我们对大数据不了解就开始盲目的学习，从而得不到自己想要的收获。

第二步：学习获取大数据

大数据的获取方法众多，我们应该能够从中总结出一种适合自己，适合实际情况的方法去得到我们想要的数据，其中最常用的就是爬虫，所以我们在学习大数据之前不仅要学习好python的基本功还要学会Python中的爬虫的相关知识。爬虫是一种容易入门的爬取数据的方法，但绝对不是唯一的一种方法，所以随着我们学习的不断深入，我们就会发现python爬虫已经不能满足我们了。
我们只学习的时候一定要注意理论与实践相结合，不可只学不练，这是学习编程最大的忌讳，所以我们在学习的时候可以结所学内容进行一定的实践，做点小项目。

第三步：学习数据处理

将我们的数据进行储存、可视化处理，这样茶能把我们得到的数据进行可视化输出。我们得到数据后需要对数据进行清洗、探索、提取、可视化处理，其中用到的主要的Python知识如何使用Python从CSV、Excel、XML、PDF 中获取数据，和各类的可视化处理的知识。
数据清洗，首先最数据进行筛选，选合适的方式对数据进行筛选处理，保留有用数据，剔除无用数据，这个步骤非常的关键，只有数据清洗的干净，后期我们进行可视化处理时才能更加准确简单。