Python数据收集及分析学习相关
简介
数据分析基本的步骤可以分为:提出问题、导入数据、数据清洗、构建模型、数据可视化。
- 提出问题: 我们所想要知道的指标(平均消费额、客户的年龄分布、营业额变化趋势等等)
- 导入数据: 需要进行分析的原始数据(网络爬虫、数据读取等)
- 数据清洗: 指发现并纠正数据文件中可识别的错误(检查数据一致性,处理无效值和缺失值等)
- 构建模型: 针对具体的问题使用对应的数据模型找到关键指标,当我们想了解数据之间的相关性时就可以构建模型(一般使用线性回归、逻辑回归、类聚算法等)
- 数据可视化: 将结果以图表形式呈现
1、所需要的基础知识
可以根据网站、视频、书籍等途径。
- python基础: 变量、字符串、运算符、控制语句、循环、列表、元组、文件I/O、函数、异常、面向对象等;在如何创建对象即可停止python基础学习,因为已经够用了。 (建议可以去练习一些题目之类的巩固自身)
- 数据分析基础工具: Numpy、Pandas、Matplotlib这3个是基础工具。
- 数据建模知识: sklearn是比较适合新手的建模工具,当然还有tensorflow和pytorch可以选择。(建议使用sklearn)
2、个人推荐书籍和网站
2.1 Python基础
这部分的学习大概可以控制在一周左右的时间完成。
- 环境推荐: 安装Anaconda环境,其中内置Python数据分析相关的环境;在Anaconda可视化安装界面下安装notebook工具。
- 书籍推荐: 《Python编程:入门到实践》
- 视频推荐: 阿里AI天池实验室课程
2.2 Numpy基础
工具作用: 线性代数库,主要用于线性代数相关的运算。这个是Pandas、Matplotlib、Sklearn的基础工具;不能缺少的辅助!
这个工具的教程比较少,一般1天或者2天能够完成。推荐菜鸟教程或者阿里天池实验室;或者官方文档。由于资料比较少,如果可以上YouTube的话,建议去YouTube看大神讲解!!
2.3 Pandas基础
工具作用: 用于数据分析,一般会使用这个做数据清洗。
这个工具的教程也比较少,耗时1到2天。推荐极客教程或者阿里天池实验室;或者官方文档。由于资料比较少,一样上YouTube看大神讲解!
2.4 Matplotlib基础
工具作用: 用于图表的绘制,一般是用在数据可视化上;在清洗时,也可以用来看相关统计等。
这个工具的教程也是比较少的,耗时1到2天。建议YouTube上面找,或者天池课程数据可视化部分;当然这个也可以看看b站up主视频。
2.5 数据建模理论知识
理论知识这里不敢瞎哔哔,直接看天池给的理论部分,这个比较通俗易懂;还有另外一个推荐书籍是吴军的《数学之美》,神作。
2.6 数据分析实战
直接还是天池的学习网站,分别是树形分支中的数据分析实战、机器学习入门、机器学习进阶。
2.7 Sklearn基础
直接看sklearn中文文档就够了,一般只需要会用就行;这个比较容易上手。
3、Kaggle网站
介绍: 是一个国外免费提供GPU资源的网站。由于数据分析所需要消耗的计算代价比较高,因此Kaggle每周免费提供30个小时的高性能GPU服务器。
说一个概念:我的机子GPU是1050Ti,跑毕设程序要跑2周时间左右才会得到结果;而Kaggle上面只需要跑3个小时左右。
再举个比较国际统一的标准:我的机子跑mnist数据集的cnn深度模型大概需要30秒左右,而Kaggle只需要几秒的时间。