Python数据收集及分析学习相关

简介

数据分析基本的步骤可以分为:提出问题、导入数据、数据清洗、构建模型、数据可视化。

  • 提出问题: 我们所想要知道的指标(平均消费额、客户的年龄分布、营业额变化趋势等等)
  • 导入数据: 需要进行分析的原始数据(网络爬虫、数据读取等)
  • 数据清洗: 指发现并纠正数据文件中可识别的错误(检查数据一致性,处理无效值和缺失值等)
  • 构建模型: 针对具体的问题使用对应的数据模型找到关键指标,当我们想了解数据之间的相关性时就可以构建模型(一般使用线性回归、逻辑回归、类聚算法等)
  • 数据可视化: 将结果以图表形式呈现

1、所需要的基础知识

可以根据网站、视频、书籍等途径。

  1. python基础: 变量、字符串、运算符、控制语句、循环、列表、元组、文件I/O、函数、异常、面向对象等;在如何创建对象即可停止python基础学习,因为已经够用了。 (建议可以去练习一些题目之类的巩固自身)
  2. 数据分析基础工具: Numpy、Pandas、Matplotlib这3个是基础工具。
  3. 数据建模知识: sklearn是比较适合新手的建模工具,当然还有tensorflow和pytorch可以选择。(建议使用sklearn)

2、个人推荐书籍和网站

2.1 Python基础

这部分的学习大概可以控制在一周左右的时间完成。

  • 环境推荐: 安装Anaconda环境,其中内置Python数据分析相关的环境;在Anaconda可视化安装界面下安装notebook工具
  • 书籍推荐: 《Python编程:入门到实践》
  • 视频推荐: 阿里AI天池实验室课程

2.2 Numpy基础

工具作用: 线性代数库,主要用于线性代数相关的运算。这个是Pandas、Matplotlib、Sklearn的基础工具;不能缺少的辅助!

这个工具的教程比较少,一般1天或者2天能够完成。推荐菜鸟教程或者阿里天池实验室;或者官方文档。由于资料比较少,如果可以上YouTube的话,建议去YouTube看大神讲解!!

2.3 Pandas基础

工具作用: 用于数据分析,一般会使用这个做数据清洗。

这个工具的教程也比较少,耗时1到2天。推荐极客教程或者阿里天池实验室;或者官方文档。由于资料比较少,一样上YouTube看大神讲解!

2.4 Matplotlib基础

工具作用: 用于图表的绘制,一般是用在数据可视化上;在清洗时,也可以用来看相关统计等。

这个工具的教程也是比较少的,耗时1到2天。建议YouTube上面找,或者天池课程数据可视化部分;当然这个也可以看看b站up主视频

2.5 数据建模理论知识

理论知识这里不敢瞎哔哔,直接看天池给的理论部分,这个比较通俗易懂;还有另外一个推荐书籍是吴军的《数学之美》,神作。

2.6 数据分析实战

直接还是天池的学习网站,分别是树形分支中的数据分析实战、机器学习入门、机器学习进阶。

2.7 Sklearn基础

直接看sklearn中文文档就够了,一般只需要会用就行;这个比较容易上手。

3、Kaggle网站

介绍: 是一个国外免费提供GPU资源的网站。由于数据分析所需要消耗的计算代价比较高,因此Kaggle每周免费提供30个小时的高性能GPU服务器。

说一个概念:我的机子GPU是1050Ti,跑毕设程序要跑2周时间左右才会得到结果;而Kaggle上面只需要跑3个小时左右。

再举个比较国际统一的标准:我的机子跑mnist数据集的cnn深度模型大概需要30秒左右,而Kaggle只需要几秒的时间。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值