文章目录
-
前言
发现数据的规律是数据分析和数据科学中非常重要的一个步骤。以下是一些常用的方法和技巧:
统计描述:使用基本的统计工具(如均值、中位数、标准差、百分位数等)对数据进行描述和总结,以便了解数据的分布和趋势。
数据可视化:将数据绘制成图表或图形,例如直方图、散点图、箱线图等,以便更清晰地展现数据的分布和趋势。可以使用Python中的Matplotlib、Seaborn或R中的ggplot2等可视化工具。
分组和聚合:将数据按照某个变量进行分组,然后对每组数据进行聚合(如计算平均值、中位数、最大值、最小值等),以便找到变量之间的相关性和趋势。
机器学习算法:使用机器学习算法(如线性回归、决策树、聚类等)对数据进行建模和预测,以便更深入地了解数据的规律和趋势。
综合使用以上方法可以更全面地了解数据的规律,以便更好地进行数据分析和决策。
下面用Python逐一介绍分析方法。
一、准备
开始之前,你要确保Python和pip已经成功安装在电脑上,如果没有,可以访问这篇文章:超详细Python安装指南 进行安装。
(可选1) 如果你用Python的目的是数据分析,可以直接安装Anaconda:Python数据分析与挖掘好帮手—Anaconda,它内置了Python和pip.
(可选2) 此外,推荐大家用VSCode编辑器,它有许多的优点:Python 编程的最好搭档—VSCode 详细指南。
请选择以下任一种方式输入命令安装依赖:
- Windows 环境 打开 Cmd (开始-运行-CMD)。
- MacOS 环境 打开 Terminal (command+空格输入Terminal)。
- 如果你用的是 VSCode编辑器 或 Pycharm,可以直接使用界面下方的Terminal.
pip install pandas
pip install numpy
pip install scipy
pip install seaborn
pip install matplotlib
机器学习部分
pip install scikit-learn
二、统计描述发现规律
使用Python进行统计描述可以使用一些内置库,例如Numpy和Pandas。
以下是一些基本的统计描述函数:
平均值(mean): 计算一组数据的平均值。
## 2.读入数据
代码如下(示例):
```c
data = pd.read_csv(
'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())
该处使用的url网络请求的数据。
import numpy as np
data = [1, 2, 3, 4, 5]
mean = np.mean(data)
print(mean)
输出结果为:3.0
中位数(median): 计算一组数据的中位数。
import numpy as np
data = [1, 2, 3, 4, 5]
median = np.median(data)
print(median)
输出结果为:3.0
众数(mode): 计算一组数据的众数。
import scipy.stats as stats
data = [1, 2, 2, 3, 4, 4, 4, 5]
mode = stats.mode(data)
print(mode)
输出结果为:ModeResult(mode=array([4]), count=array([3]))
方差(variance): 计算一组数据的方差。
import numpy as np
data = [1, 2, 3, 4, 5]
variance = np.var(data)
print(variance)
输出结果为:2.0
标准差(standard deviation): 计算一组数据的标准差。
import numpy as np
data = [1, 2, 3, 4, 5]
std_dev = np.std(data)
print(std_dev)
输出结果为:1.4142135623730951
以上是一些基本的统计描述函数,还有其他函数可以使用,具体使用方法可查看相应的文档。
二.数据可视化分析规律
Python有很多库可以用来进行数据可视化,其中最常用的有Matplotlib和Seaborn。以下是一些基本的数据可视化方法:
折线图(line plot): 可以用来展示随时间或某个变量的趋势。
import matplotlib.pyplot as plt
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]
plt.plot(x, y)
plt.show()
散点图(scatter plot): 可以用来展示两个变量之间的关系。
import matplotlib.pyplot as plt
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]
plt.scatter(x, y)
plt.show()
直方图(histogram): 可以用来展示数值型数据的分布情况。
import matplotlib.pyplot as plt
data = [1, 2, 2, 3, 4, 4, 4, 5]
plt.hist(data, bins=5)
plt.show()
箱线图(box plot): 可以用来展示数值型数据的中位数、四分位数和异常值等信息。
import seaborn as sns
data = [1, 2, 2, 3, 4, 4, 4, 5]
sns.boxplot(data)
plt.show()
条形图(bar chart): 可以用来展示分类变量之间的差异或比较。
import matplotlib.pyplot as plt
categories = [‘A’, ‘B’, ‘C’, ‘D’]
v