自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 SQL练习

SQL练习(二)mysql从表中选取符合条件的数据SELECT <列名>, ……FROM <表名>WHERE <条件表达式>;-- 用来选取product type列为衣服’的记录的SELECT语句SELECT product_name, product_type FROM product WHERE product_type = '衣服';-- 也可以选取出不是查询条件的列(条件列与输出列不同)SELECT product_name FRO

2021-03-10 23:00:36 238

原创 SQL练习

SQL练习一(mysql)1.数据库的创建语法:CREATE DATABASE < 数据库名称 > ;实例: CREATE DATABASE shop;2.表的创建语法:CREATE TABLE < 表名 >( < 列名 1> < 数据类型 > < 该列所需约束 > ,< 列名 2> < 数据类型 > < 该列所需约束 > ,< 列名 3> < 数据类型 > < 该

2021-03-10 16:06:55 186 1

原创 天池新手赛-利用Pandas分析美国选民总统喜好度

1.1 赛事地址 https://tianchi.aliyun.com/competition/entrance/531837/introduction1.2 需要提前安装的包1.3 需要提前现在好数据集 赛事指南2. 数据处理内容参考: 天池大赛

2021-03-07 22:52:59 443

原创 函数与魔法方法

python总结(三)函数与魔法方法一、函数1.参数1.1. 默认参数1.2. 可变参数1.3. 关键字参数2.变量的作用域3. 内嵌函数4. 匿名函数二. 魔法方法1.__init__方法2.公有和私有在 Python 中定义私有变量只需要在变量名或函数名前加上“__”两个下划线,那么这个函数或变量就会为私有的了。3.内置函数文章参考:天池大赛...

2021-03-07 22:35:51 141

原创 Python基础练习:数据结构大汇总——列表(二)

Python基础练习:数据结构大汇总——列表(二)列表1.1 列表的创建1.2 列表的添加list.append(obj) 在列表末尾添加新的对象,只接受一个参数,参数可以是任何数据类型,被追加的元素在 list中保持着原结构类型。x = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday']x.append('Thursday')print(x) # ['Monday', 'Tuesday', 'Wednesday'

2021-03-04 22:18:53 168 1

原创 2021-03-04

python基础学习总结(一)三元运算符is 和 == 的区别获取变量类型enumerate()函数推导式文章总结参考 :天池大赛

2021-03-04 21:47:59 119 1

原创 数据预处理-相关性过滤(F检验和互信息法)

F检验     F检验,又称ANOVA,方差齐性检验,是用来捕捉每个特征与标签之间的线性关系的过滤方法。它即可以做回归也可以做分类,因此包含feature_selection.f_classif(F检验分类) 和 feature_selection.f_regression(F检验回归)两个类。其中F检验分类用于标签是离散型变量的数据,而F检验回...

2019-09-25 12:17:37 7605 1

原创 数据预处理-相关性过滤(卡方过滤)

方差挑选完毕之后,我们就要考虑下一个问题:相关性了。我们希望选出与标签相关且有意义的特征,因为这样的特征能够为我们提供大量信息。如果特征与标签无关,那只会白白浪费我们的计算内存,可能还会给模型带来噪音。在sklearn当中,我们有三种常用的方法来评判特征与标签之间的相关性:卡方,F检验,互信息。原来的分数如下图所示,可以看出,模型的效果降低了,这说明我们在设定k=300的时候删除了与模型相关...

2019-09-25 11:47:25 3268 2

原创 数据预处理-方差过滤对模型的影响(VarianceThreshold)

方差过滤对模型的影响我们这样做了以后,对模型效果会有怎样的影响呢?在这里,我为大家准备了KNN和随机森林分别在方差过滤前和方差过滤后运行的效果和运行时间的对比。KNN是K近邻算法中的分类算法,其原理非常简单,是利用每个样本到其他样本点的距离来判断每个样本点的相似度,然后对样本进行分类。KNN必须遍历每个特征和每个样本,因而特征越多,KNN的计算也就会越缓慢。1. 导入模块并准备数据我们从模...

2019-09-25 11:19:11 2661

原创 数据预处理--特征选择(过滤法)

方差过滤VarianceThreshold这是通过特征本身的方差来筛选特征的类。比如一个特征本身的方差很小,就表示样本在这个特征上基本没有差异,可能特征中的大多数值都一样,甚至整个特征的取值都相同,那这个特征对于样本区分没有什么作用。所以无论接下来的特征工程要做什么,都要优先消除方差为0的特征。VarianceThreshold有重要参数threshold,表示方差的阈值,表示舍弃所有方差小...

2019-09-25 11:07:49 1718

原创 数据预处理:处理连续型特征-二值化与分段

处理连续型特征:二值化与分段sklearn.preprocessing.Binarizer根据阈值将数据二值化(将特征值设置为0或1),用于处理连续型变量。大于阈值的值映射为1,而小于或等于阈值的值映射为0。默认阈值为0时,特征中所有的正值都映射到1。二值化是对文本计数数据的常见操作,分析人员可以决定仅考虑某种现象的存在与否。它还可以用作考虑布尔随机变量的估计器的预处理步骤(例如,使用贝叶...

2019-09-25 09:22:22 1907

原创 数据预处理:独热编码

preprocessing.OneHotEncoder:独热编码,创建哑变量前言:我们刚才已经用OrdinalEncoder把分类变量Sex和Embarked都转换成数字对应的类别了。在舱门Embarked这一列中,我们使用[0,1,2]代表了三个不同的舱门,然而这种转换是正确的吗?我们来思考三种不同性质的分类数据:1) 舱门(S,C,Q)三种取值S,C,Q是相互独立的,彼此之间完全没有...

2019-09-25 09:14:57 1595

原创 数据预处理-处理分类型特征:编码(LabelEncoder、OrdinalEncoder)

前言:在机器学习中,大多数算法,譬如逻辑回归,支持向量机SVM,k近邻算法等都只能够处理数值型数据,不能处理文字,在sklearn当中,除了专用来处理文字的算法,其他算法在fit的时候全部要求输入数组或矩阵,也不能够导入文字型数据(其实手写决策树和普斯贝叶斯可以处理文字,但是sklearn中规定必须导入数值型)。然而在现实中,许多标签和特征在数据收集完毕的时候,都不是以数字来表现的。比如说,学...

2019-09-25 09:09:02 14067 3

原创 数据预处理-用sklearn解决数据中出现缺失值

机器学习和数据挖掘中所使用的数据,永远不可能是完美的。很多特征,对于分析和建模来说意义非凡,但对于实际收集数据的人却不是如此,因此数据挖掘之中,常常会有重要的字段缺失值很多,但又不能舍弃字段的情况。因此,数据预处理中非常重要的一项就是处理缺失值。在这里,我们使用从泰坦尼克号提取出来的数据,这个数据有三个特征,一个数值型,两个字符型,标签也是字符型。从这里开始,我们就使用这个数据给大家作为例...

2019-09-25 08:59:43 1116

原创 缩放有离群值的数据 sklearn.preprocessing.RobustScaler

sklearn.preprocessing.RobustScaler缩放有离群值的数据sklearn.preprocessing.RobustScaler(with_centering=True, with_scaling=True, quantile_range=(25.0, 75.0), copy=True)使用具有鲁棒性的统计量缩放带有异常值(离群值)的数据该缩放器删除中位数,并根据百...

2019-09-24 19:00:26 2219

原创 线性回归 sklearn.linear_model.LinearRegression

线性回归 sklearn.linear_model.LinearRegressionsklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=None)Parameters(参数):     fit_intercept ...

2019-09-22 22:44:03 1066

原创 sklearn.preprocessing.MaxAbsScaler

sklearn.preprocessing.MaxAbsScalersklearn.preprocessing.MaxAbsScaler(copy=True)通过其最大绝对值缩放每个特征,也就是每个属性除以其所在属性列的最大值。它不会移动/居中数据,因此不会破坏任何稀疏性。Parameters(参数):copy : boolean, optional, default is True是否...

2019-09-21 13:25:59 1653

原创 sklearn.preprocessing.MinMaxScaler

sklearn.preprocessing.MinMaxScalersklearn.preprocessing.MinMaxScaler(feature_range=(0, 1), copy=True)将数据的每一个特征缩放到给定的范围,将数据的每一个属性值减去其最小值,然后除以其极差(最大值 - 最小值)原理实现:X_std = (X - X.min(axis=0)) / (X.max...

2019-09-21 12:15:14 13293

原创 sklearn.model_selection.StratifiedKFold

sklearn.model_selection.StratifiedKFold(n_splits=’warn’, shuffle=False, random_state=None)分层K-Folds交叉验证器提供训练/测试索引以分割训练/测试集中的数据。此交叉验证对象是KFold的变体,可返回分层折叠。通过保留每个类别的样本百分比来进行折叠。参数:n_splits : int,defau...

2019-09-21 00:31:40 1119

原创 数据集划分-交叉验证(CV)

数据集划分-交叉验证(CV)通过将原始数据分为3个数据集合,我们就大大减少了可用于模型学习的样本数量, 并且得到的结果依赖于集合对(训练,验证)的随机选择。这个问题可以通过 交叉验证(CV ) 来解决。 交叉验证仍需要测试集做最后的模型评估,但不再需要验证集。最基本的方法:k-折交叉验证 。k-折交叉验证将训练集划分为 k 个较小的集合(其他方法会在下面描述,主要原则基本相同)。 每一个 ...

2019-09-20 23:52:15 3396

原创 数据集的划分-train_test_split

数据集的划分:评估估算器的表现学习预测函数的参数,并在相同数据集上进行测试是一种错误的做法: 一个仅给出测试用例标签的模型将会获得极高的分数,但对于尚未出现过的数据它则无法预测出任何有用的信息。 这种情况称为 overfitting(过拟合). 为了避免这种情况,在进行(监督)机器学习实验时,通常取出部分可利用数据作为 test set(测试数据集) X_test, y_test。利用 sci...

2019-09-20 23:27:42 2303

原创 K-Folds交叉验证器

K-Folds交叉验证器sklearn.model_selection.KFold(n_splits =‘warn’,shuffle = False,random_state = None )提供训练/测试索引以分割训练/测试集中的数据。将数据集拆分为k个连续折叠(默认情况下不进行混洗)。然后每个折叠使用一次作为验证,而k-1剩余折叠形成训练集。参数:n_splits : int,defau...

2019-09-19 00:07:15 1051

原创 sklearn.proprocessing.StandardScaler

sklearn.proprocessing.StandardScalersklearn.preprocessing.StandardScaler(copy=True, with_mean=True, with_std=True)通过减去均值和缩放到单位方差在标准化特征样本x的标准分数计算如下:其中u是训练样本的平均值,如果是with_mean=False,u则为零,并且s是训练样本的标...

2019-08-09 18:28:58 1084

原创 sklearn.datasets.make_blobs 生成符合高斯分布的点

sklearn.datasets.make_blobssklearn.datasets.make_blobs(n_samples=100, n_features=2, centers=None, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None)生成用于聚类的各向同性高斯blobs参数n_s...

2019-08-09 18:26:06 1853

原创 Linear Regression Example

Linear Regression Example此示例仅使用diabetes数据集的第一个特征,以说明此回归技术的二维图。可以在图中看到直线,显示线性回归如何尝试绘制直线,该线将最佳地最小化数据集中观察到的响应之间的残差平方和线性近似预测的响应。The coefficients(系数指标):the residual sum of squares(残差平方和),the variance sc...

2019-08-09 12:44:28 264

原创 手写数字识别

手写数字识别显示scikit-learn如何用于识别手写数字图像的示例。Classification report for classifier SVC(gamma=0.001): precision recall f1-score support 0 1.00 0.99 0.99 ...

2019-08-08 15:26:36 794

翻译 sklearn.model_selection.train_test_split

sklearn.model_selection.train_test_split将数组或矩阵拆分为随机序列和测试子集包含输入验证和应用程序的快速实用程序, 用于将数据输入到单个调用中,以便在oneliner中拆分(并可选地进行子采样)数据。next(ShuffleSplit().split(X, y))参数:数组: 具有相同长度/形状的可索引序列[0]允许的输入是列表,numpy数组...

2019-08-08 10:02:15 224

原创 统计学习:scikit-learn中的设置和估计对象

统计学习:scikit-learn中的设置和估计对象数据集Scikit-learn处理来自一个或多个表示为2D阵列的数据集的学习信息。它们可以被理解为多维观察的列表。我们说这些数组的第一个轴是样本轴,而第二个是 特征轴。scikit-learn附带的一个简单示例:iris数据集>>>>>> from sklearn import datasets&g...

2019-08-07 23:08:40 352

原创 scikit-learn对机器学习的介绍

scikit-learn对机器学习的介绍部分内容在本节中,我们将介绍 我们在整个scikit-learn中使用的机器学习词汇,并给出一个简单的学习示例。机器学习:问题设置通常,学习问题考虑一组n 个数据样本,然后尝试预测未知数据的属性。如果每个样本不止一个数字,例如,多维条目(也称为多变量 数据),则称其具有多个属性或特征。学习问题分为几类:监督学习,其中数据带有我们想要预测的其他属性...

2019-08-07 22:59:35 174

原创 机器学习(聚类)

机器学习(聚类)参考资料:清华大学学堂在线,统计学习方法1.聚类任务描述**无监督的学习任务:标记未知揭示数据的内在性质和规律**试图将数据集中的样本划分为若干个通常不相交的子集,每个子集称为一个簇聚类的形式化描述:• 样本集:• 每个样本:• 划分为k个不相交的簇:• 簇标记:• 聚类的结果可用包含m个元素的簇标记向量 表示• 聚类的重要性 :其它学习任务...

2019-07-23 13:45:43 573

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除