python数据分析（预测性分析与机器学习）

最新推荐文章于 2024-06-22 10:30:53 发布

星之空殇

最新推荐文章于 2024-06-22 10:30:53 发布

阅读量1.1w

点赞数 4

本文链接：https://blog.csdn.net/dengjiaxing0321/article/details/78725611

版权

本文涉及到的主题如下所示：

预处理
基于逻辑回归的分类
基于支持向量机的分类
基于ElasticNetCV的回归分析
支持向量回归
基于相似性传播
均值漂移算法
遗传算法
神经网络
决策树算法

1、预处理

在上一章，我们已经做过一次预处理，即过滤掉停用词。一些机器学习算法对某些数据比较头疼，因为这些数据不服从高斯分布，即不满足数学期望为0，标准差为1的条件。模块sklearn.preprocessing从而应运而生，本节详细介绍该模块的使用方法。在https://www.knmi.nl/nederland-nu/klimatologie/daggegevens下载编号260的De Blit数据。我们所要的数据只是原始数据文件中的一列而已，这一列记录的是日降雨量。

代码：

#coding:utf8
import numpy as np
from sklearn import preprocessing
from scipy.stats import anderson

# 加载数据
rain = np.load('rain.npy')
rain = .1 * rain
rain[rain < 0] = .05 / 2

print("Rain mean", rain.mean())  #计算期望值
print("Rain Variance", rain.var())  #计算标准差
print("Anderson Rain", anderson(rain))#安德森检验

scaled = preproc