python工程师养成之路
本篇文章主要介绍python工程师(数据分析方向)心理路程,适合想学python却无从下手之人,由于篇幅原因可能写的比较粗糙,具体细节将分模块进行:
- python开始准备工具
新手推荐anaconda,下载方式有很多种,可以在anaconda官网下载 ,根据你的电脑配置进行下载,安装,安装教程此处不做过多介绍。
以下是备用的下载链接:
https://www.anaconda.com/download/ - 了解python基础
python基础主要了解这些内容:
a.中文编码、变量、注释 b.运算符、条件语句if….else 、循环、时间类型、文件读取、异常处理、以及函
此处强调行缩进问题:python对缩进要求比较高,如果缩进不对应有可能运行错误,也有可能执行的不是你想要的结果。
今天主要是文字描述,代码慢慢上 - 获取数据
这个模块我讲的不多,数据的来源有很多种,爬虫感觉是很多人用的方法,本喵不会爬虫,在此处不做介绍。
我经常用的获取数据的方法,各大公众号分享的公开数据集以及python自带的数据集,或者一些竞赛网上用的数据,或者一些政府网公开的数据集,还有个方法就是某宝(大家懂啊)
-数据处理
数据分析呢主要分为以下几个步骤:
1、数据清洗:清洗字段格式、缺失值
2、数据标准化:标准化格式,或者为了训练模型进行数据标准化
3、数据字典整理:建议养成一个好习惯,整理好处理数据的字典,方便以后查阅,也为后来了解项目的人减轻负担
4、描述性统计:describe()出数据中的数据特征,这样方便快速了解或者发现数据异常,如果有疑问箱线图更能解释数据特点 - 数据存储
这个内容说多不多,说少也不少,主要的存储工具是数据库,web虚拟环境也能存储数据,如果遇到量级数据(就是超级超级多,一版电脑装不下)那就会用到数据中心 - 数据之静态可视化
数据拿到后就要经过一系列分析,处理。。。。等复杂的工序,然后加工成我们(laoban)想要的,这个远远不是目的,为了直接了当的让人知道我们拿数据做了什么,那么就要用到数据可视化啦,推荐python数据分析用的库,numpy,pandas,pyecharts,ggplot,pyplot,还有web
-动态可视化
这个也是一天写不完,等我慢慢写哈…….. 接下来介绍web基础需要了解什么
-传说中网页的骨头:html
这个主要了解他的基本结构,认识那个是头哪个是尾,各种标签代表什么,他们里面装了什么东西,颜色怎么设置,这个熟能生巧啦
-CSS
了解常用的选择器,看看实例:好吧我来个实例吧机器学习
- 首先明白基本概念
要了解什么是机器学习,选择你喜欢的机器学习的种类:监督学习,无监督学习,增强学习,自学习,集成等等
-然后要注意下机器学习容易产生的问题:维度灾难、过拟合
机器学习的过程:1.预处理2.特征工程3.特征选择4.特征降维 5 模型训练、调参 6 模型评估(好累,以后慢慢码)
在这里我先介绍下常用的经典的模型:后期挨个实现给大家看
线性回归、逻辑回归、贝叶斯、均值据类、K临近、决策树、支持向量机、神经网络 大致就这些了 - 深度学习
这个模块嘛,本喵涉入不深,大致知道个处理图像的CNN以及处理序列的RNN,这块内容正在充电中,以后会详细的给大家介绍。