自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 机器学习之数据分析

1、数据探索:简单来说就是认识数据,看看数据长什么样 2、数据清洗:将“脏”数据清洗干净,转化为我们想要的数据;如果遇到非结构化的数据,需要先将其转换为结构化数据。在数据清洗过程中,需要清洗的主要内容有:缺失值,异常值,噪音值等。 3、数据预处理:主要是:归一化、标准化、滤波、热编码、稀疏化等 4、特征工程:特征转换、特征拆分、特征重要性、特征合并等 5、建立模型:根据需要解决的问题,建立相关的算法模型 6、模型调优:调节算法参数、模型选择、选择评价指标、交叉验证等 ...

2020-05-13 00:15:27 403

原创 机器学习(四)————正则化

正则化:减少过拟合问题 欠拟合:算法没有很好地拟合数据,具有高偏差 过拟合:会在变量过多的时候出现,无法泛化到新样本,具有高方差 以下从左到右:欠拟合,拟合,过拟合 正则化的思想 当复杂的模型容易出现过拟合,我们可以通过控制模型的中的某些参数,让模型向着简单发展,来减轻拟合。 ...

2020-05-12 23:41:00 141

原创 机器学习(三)————逻辑回归

参考博客:https://blog.csdn.net/yinyu19950811/article/details/81321944 逻辑回归的函数 逻辑回归的假设 其第一个假设是:假设数据服从伯努利分布 其第二个假设是:假设模型的输出值是样本为正的概率。 图中g(z)所对应的函数称为Sigmoid函数,而h(x)可以理解为概率,即当h(x)>=0.5时,z>=0,此时y为1分类,当h(x)<0.5时,<0,此时y为0分类 使用sigmoid函数原因详见https://blog.csd

2020-05-10 23:52:19 224

原创 机器学习(二)————线性回归+梯度下降算法

线性回归 代价函数:用于衡量假设函数的准确性 平方差代价函数 θ0和θ1为模型参数 简化:令θ0=0,即h(x)=θ1*x 无简化的代价函数图形 等高图 梯度下降 ...

2020-05-08 22:39:53 461

原创 数据处理三剑客之panda

panda的dataframe类: DataFrame有四个重要的属性: index:行索引。 columns:列索引。 values:值的二维数组。 name:名字。 数据操作: 维度查看 df.shape 获得数据表基本信息(维度,列名,数据类型,占用空间等) df.info() 获取每一列的数据格式 df.dtypes 获得某一列的数据格式 df[“A”].dtypes 读取头几条数据 d...

2020-05-06 22:45:57 173

原创 数据分析三剑客之matplotlib

matplotlib基本要点: 1、绘制折线图(plt.plot) 2、设置图片大小和分辨率(plt.figure) 3、实现图片的保存(plt.saveflg) 4、设置xy轴上的刻度和字符串(xticks,yticks) 5、解决刻度稀疏和密集问题(xticks,yticks) 6、设置标题,xy轴的lable(title,xlable,ylable) 7、设置字体(font manager....

2020-05-05 00:33:13 371

原创 数据处理三剑客之Numpy

ndarray和list列表的区别: python list 列表保存的是对象的指针,比如 [0,1,2] 需要保存 3 个指针和 3 个整数的对象,浪费内存资源和cpu计算时间 Numpy中的ndarray是一种保存单一数据类型的多维数组结构,储存在一个连续的内存块中,节约了计算资源。 numpy: -NumPy(Numerical Python):Python语言的一个扩展程序库,支持大量的...

2020-05-02 01:59:00 275

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除