我使用的是python语言和Visual Studio Code软件
我本人也还是个初入门选手,这是一篇新人笔记
如果有不对的地方欢迎指正,仅作参考
首先要在Visual Studio Code上面安装python扩展和jupyter扩展
然后创建你的代码文件,文件类型可以是py,ipynb或者其他,当作记事本的我推荐ipynb
pandas和numpys是最常用的两个包
目录
数据分析分为六大步骤
需求分析,数据获取,数据预处理,分析与建模,模型评价与优化,部署
需求分析:
从用户视图出发,分析与辨别应用领域所管理的各类数据项和数据结构,形成数据
简单点说就是先清楚用户的需求,对症下药.
数据获取:
数据收集,数据整理
通过大数据来统计所需的数据
数据预处理
收集数据 | 寻找数据源并收集可用的数据 |
---|---|
数据清洗 | 通过去除重复、填补缺失值、纠正错误等方法,确保数据的准确性 |
数据变换 | 将数据转换为适合分析的格式,例如将分类数据编码为数字形式,将时间序列数据转换为可分析的时间格式等。 |
数据规范化 | 将不同尺度的数据归一化到一个标准的范围内,以避免在模型训练时产生偏差。 |