python 改列名没反应_利用python进行数据分析(引言部分)

a39295d83a4b83ef780c059d4921a4d5.png

这篇文章是整个专栏的引言部分,我将从数据分析过程的基本要素组成、各要素具备技能分析和专栏章节安排三个方面来展开接下来的论述。

一、数据分析过程的基本要素组成

d309c1c57e16a7e8dc914678c65ae31f.png

由上图可知,进行数据分析的的基本流程是“确认需求-数据收集-分析、建模-数据可视化及结论”组成。

(一)确认需求和数据选择

在进行数据分析时先要明确进行这项工作的目的是什么,这是进行数据选取和分析方法选择的前提。例如,无人机遥感大热,将其运用于农田缺水感知的研究已开展许多年,目前有结论指出多光谱归一化遥感植被指数(NDVI)越大作物越不缺水。那么我们回顾一下是如何从确认需求到得出结论的:(1)无人机有监测面积大,适合于大面积作业场景,(2)研究证明大面积种植农场效益更优,(3)有人提出设想,能否将无人机用于农田作物管理,(4)无人机感知手段有光谱、微波等,而能直观反应作物缺水的指数有土壤相对含水率、叶面积指数、气孔导度等等(数据选择),(5)确定研究课题,将遥感光谱和作物缺水联系起来(确认需求),(6)直观的光谱图像是无法反应作物水分状况的,需要建立光谱反射率同直观反应作物缺水的指数的联系(数据选择),(7)通过相关性、聚类等分析最终得出结论(数据分析)。

相同的道理,我们可以在换个思维方式,例如,某种消费现象已经发生(有益的),如果我们想让它再次发生(确认需求),就得对消费者的各项行为数据进行分析(数据分析),最终通过企业引导等手段增加行为发生的概率,达到目的。

这样的例子还有很多,就不一一举例了。

(二)数据收集

数据获取的方式有很多种,一种是利用一种装置,将来自各种数据源的数据自动收集到一个装置中。被采集数据是已被转换为电讯号的各种物理量,如温度、水位、风速、压力等,可以是模拟量,也可以是数字量。另一种是借助网络平台优势,利用一些平台的公开数据或者爬取一些数据(爬虫需谨慎,看清楚能不能爬,别瞎爬)。本专栏所有案例获取的数据全部保存在云数据库,之后会单独写一篇云数据库使用的教程,以及如何用python选取云库的数据。

当获取到数据后,需要对数据进行清洗,清洗对象就是我们平时所遇到的异常值,比如,缺失值、重复值、字符串等,最终将其剔除或者转换为不影响最终结果的数值,然后将数据保存。

(三)分析、建模

分析建模的目的是将杂乱无章的数据整合、提取特征、找规律,得到简单的可以代表某种特征的数据。本专栏将通过案例分析的方式将部分机器学习算法整理出来,和大家共同学习,更好的去掌握这些算法。(线性回归、逻辑分析、线性判别分析、分类和回归树、朴素贝叶斯、KNN、Kmeans、SVM

(四)数据可视化及结论

数据可视化可以将结果更加直观的展示,忘记从哪看到的这么一句话“数据可视化并不是简单的把数据变成图表。而是以数据为视角,看待世界。以数据为工具,以可视化为手段,目的是描述真实,探索世界。”可视化将抽象的客观世界具体的展现在人们面前,是人与这个世界的桥梁,因此,本专栏会利用python(有时间把R也用一下)和大家讨论一些可视化的方法,以及各类图的绘制。

二、各要素所需技能介绍

(一)数据存放调用所用到SQL语句

接下来我将介绍一些常用的SQL语句(没错,就是在这介绍,基本的数据库操作并没有多难,掌握基础语句即可(不够希望大家给我补充),后面在对SQL使用进行深化,以及如何用python操作数据库)

创建数据库

CREATE DATABASE 数据库名字

打开数据库

USE 数据库名字

查看数据数据库

#查看所有数据库
SHOW DATABASES
#查看当前打开的数据库
SELECT DATABASE()

删除数据库

DROP DATABASES 数据库名字

在数据库中创建数据表,根据具体数据类型,选择相应数据长度

CREATE TABLE 表名称
(
列名称1 数据类型,
列名称2 数据类型,
列名称3 数据类型,
....
)
#查看数据表
SHOW 表名称 FROM 库名称
#查看数据表结构
SHOW COLUMNS FROM 库名称

向数据表中写入记录

INSERT 表名称(列名称1, 列名称2, 列名称3) VALUES(值1,值2, 值3);

删除记录的数据

DELETE FROM 表名 WHERE 列名 = 值

更新记录的数据

UPDATE 表名称 SET 列名称 = 新值 WHERE 列名称 =值

添加、修改或删除列

ALTER TABLE 表名
#加列
ADD 列名 数据类型
#删除列
DROP COLUMN 列名 

(二)数据处理

数据处理我依旧使用了python,这方面资料比较多,我不多说了,如有需要后续我会将链接放上来。

(三)分析、构建模型和数据可视化(本专栏的重点)

本专栏所有模型和可视化工具皆使用python编写,回在后面的案例分析提供源代码。此外,无python基础也无所谓,我会在代码讲解时附带讲解一些基础的python语句。

三、章节安排

1793bab0f33f58b1656d30fb0c000d55.png

这是一个完整的数据分析专栏,希望能和大家在这有所收获!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值