Python数据处理及可视化
文章平均质量分 61
墨氲
这个作者很懒,什么都没留下…
展开
-
sklearn 处理文本和分类属性[LabelBinarizer, LabelEncoder,OneHotEncoder]
sklearn 利用LabelBinarizer, LabelEncoder,OneHotEncoder来处理文本和分类属性对于分类和文本属性,需要将其转换为离散的数值特征才能喂给机器学习算法,常用的是转化为 one-hot编码格式。df = pd.DataFrame({'ocean_proximity':["<1H OCEAN","<1H OCEAN","NEAR OCEAN",...原创 2018-09-23 11:06:27 · 2233 阅读 · 0 评论 -
pandas where函数用法
Series.where(cond, other=nan, inplace=False, axis=None, level=None, errors=‘raise’, try_cast=False, raise_on_error=None)如果 cond 为真,保持原来的值,否则替换为other, inplace为真标识在原数据上操作,为False标识在原数据的copy上操作。other ...原创 2018-09-22 23:04:42 · 34985 阅读 · 0 评论 -
pandas 处理缺失值[dropna、drop、fillna]
面对缺失值三种处理方法:option 1: 去掉含有缺失值的样本(行)option 2:将含有缺失值的列(特征向量)去掉option 3:将缺失值用某些值填充(0,平均值,中值等)对于dropna和fillna,dataframe和series都有,在这主要讲datafame的对于option1:使用DataFrame.dropna(axis=0, how='any', thres...原创 2018-09-22 18:37:18 · 52117 阅读 · 0 评论 -
pandas 统计函数[corr,scatter_matrix]
DataFrame.corr(method=‘pearson’, min_periods=1)计算列与列之间的相关系数,返回相关系数矩阵method : {‘pearson’, ‘kendall’, ‘spearman’}* pearson : standard correlation coefficient* kendall : Kendall Tau correlation co...原创 2018-09-22 12:11:36 · 20068 阅读 · 0 评论 -
OReilly.Hands-On.Machine.Learning.with.Scikit-Learn.and.TensorFlow学习笔记汇总
其中用到的知识点我都记录在博客中了:https://blog.csdn.net/dss_dssssd第一章知识点总结:supervised learningk-Nearest NeighborsLinear RegressionLogistic RegressionSupport Vector Machines (SVMs)Decision Trees and Random F...翻译 2018-09-27 14:29:37 · 512 阅读 · 0 评论 -
pandas plot参数
封装matplotlib的plot函数pandas.plotDataFrame.plot(x=None, y=None, kind=‘line’, ax=None, subplots=False, sharex=None, sharey=False, layout=None, figsize=None, use_index=True, title=None, grid=None, lege...原创 2018-09-22 10:50:47 · 18714 阅读 · 0 评论 -
sklearn超参数调整方法 [GridSearchCV, RandomizedSearchCV]
模型调整, 假设已经找到了一些潜在的模型,下面是几种方法用于模型调整1. 超参数修改网格搜索 (grid searh)一种方法是手动调整超参数(hyperparameters)。GridSearchCV,参数为你想调整的超参数和该超参数的值。class sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring...原创 2018-09-27 14:12:03 · 6919 阅读 · 1 评论 -
sklearn joblib 交叉验证函数 cross_val_score
sklearn.model_selection.cross_val_score(estimator, X, y=None, groups=None, scoring=None, cv=’warn’, n_jobs=None, verbose=0, fit_params=None, pre_dispatch=‘2*n_jobs’, scoring=’raise-deprecating’)只介绍几个...原创 2018-09-26 22:01:17 · 2090 阅读 · 0 评论 -
sklearn 中 pipeline 或 LabelBinariy出现 'fit_transform() takes 2 positional arguments but 3 were given'
在学习OReilly.Hands-On.Machine.Learning.with.Scikit-Learn.and.TensorFlow.2017.3时,执行以下代码会出错:from sklearn.pipeline import FeatureUnionfrom sklearn.pipeline import Pipelinefrom sklearn.preprocessing imp...原创 2018-09-25 23:49:29 · 4176 阅读 · 1 评论 -
sklearn pipeline
众所周知,有很多数据转换步骤需要按照正确的步骤执行,sklearn提供了Pipeline类来处理这种顺序的操作步骤from sklearn.pipeline import Pipelinefrom sklearn.preprocessing import StandardScalernum_pipeline = Pipeline([ ('imputer', Imputer(strategy...原创 2018-09-25 17:15:36 · 6264 阅读 · 0 评论 -
sklearn特征缩放(feature scaling)[MinMaxScaler, standardization]
当输入数值属性有不同的尺度,比如有的属性变化范围为-1到1,而有的属性变化范围为1到1000,机器学习算法通常不会表现的很好,因而需要对数值属性进行特征缩放。有两个常用的方法可以使得所有的属性有相同的尺度, min-max scaling 和 standardization。MinMaxXScale 也称 normalizationclass sklearn.preprocessing....原创 2018-09-25 09:08:14 · 2950 阅读 · 0 评论 -
slearn 缺失值处理器: Imputer
class sklearn.preprocessing.Imputer(missing_values=’NaN’, strategy=’mean’, axis=0, verbose=0, copy=True)参数:missing_values: integer or “NaN”, optional (default=”NaN”)strategy : string, optional (de...原创 2018-09-24 19:00:02 · 18910 阅读 · 6 评论 -
skearn 自定义转换器 [TransformerMixin, BaseEstimator, fit_transform, fit, transform]
自定义转换函器:创建一个类,实现fit()[return self]、transform()和fit_transform(),如果使用TransformerMixin作为基类,则自动实现fit_transform()函数,fit_transform() &lt;==&gt; fit().transform(),如果添加BaseEstimator作为基类,,注意此时__init__函数不能接受...原创 2018-09-23 21:13:52 · 11292 阅读 · 6 评论 -
sklearn数据集分割函数[StratifiedShuffleSplit、split]
sklearn.model_selection.StratifiedShuffleSplit(n_splits=10, test_size=’default’, train_size=None, random_state=None)将数据集划分为几组数据集/测试集。split(X, y)按照y的值将数据集分为训练集或测试集,保证训练集和测试集中各类y值所占的比例与原数据集相同。考虑一个...原创 2018-09-22 23:06:05 · 6362 阅读 · 7 评论