数据处理
千寻~
这个作者很懒,什么都没留下…
展开
-
pandas数据合并与重塑---concat方法
谈到pandas数据的行更新、表合并等操作,一般用到的方法有concat、join、merge。但这三种方法对于很多新手来说,都不太好分清使用的场合与用途。今天就pandas官网中关于数据合并和重述的章节做个使用方法的总结。1、concatpd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,转载 2017-11-20 16:27:55 · 2016 阅读 · 0 评论 -
数据归一化和两种常用的归一化方法
数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种常用的归一化方法:一、min-max标准化(Min-Max Normalization)也称为离差标...转载 2018-01-03 16:28:54 · 6630 阅读 · 0 评论 -
sklearn的快速使用
传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测,分类。本文我们将依据传统机器学习的流程,看看在每一步流程中都有哪些常用的函数以及它们的用法是怎么样的。希望你看完这篇文章可以最为快速的开始你的学习任务。1. 获取数据1.1 导入sklearn数据集 sklearn中包含了大量的优质的数据集,在你学习机器学...转载 2018-01-29 11:04:26 · 388 阅读 · 0 评论 -
利用sklearn的LabelEncoder实现标准化标签
sklearn.preprocessing.LabelEncoder():标准化标签,将标签值统一转换成range(标签值个数-1)范围内# coding:utf-8from sklearn import preprocessingle = preprocessing.LabelEncoder()le.fit(["Japan", "china", "Japan", "Korea","...原创 2018-03-02 17:43:31 · 7543 阅读 · 0 评论 -
sklearn中predict_proba用法(注意和predict的区别)
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。” predict_proba返回的是一个n 行 k 列的数组, 第 i 行 第 j 列上的数值是模型预测 第 i 个预测样本为某个标签的概率,并且每一行的概率和为1。# conding :utf-8fr...原创 2018-03-03 13:35:34 · 79783 阅读 · 5 评论 -
numpy的where的用法
numpy.where()的两种用法:1、三个参数numpy.where(condition,x,y):满足condition条件,输出x,不满足输出y。2、一个参数numpy.where(array):输出array中‘真’值的坐标(‘真‘也可以理解为非零)。1、np.where(condition, x, y):import numpy as npresult=np.where([[True...原创 2018-03-03 14:42:28 · 2556 阅读 · 0 评论 -
pandas的数据结构series、dataframe
一)属性series :.index,.values, .name,.index.namedataframe :.columns, .index,.values二)创建方法 series: 一组数组(列表或元组),series除了一组数据外还包括一组索引(即只有行索引),索引可自行定义也可利用Series(),自动生成索引; dataframe: 是表格型数据,既有行索引又有列索引,每列数...转载 2018-03-05 19:27:44 · 679 阅读 · 0 评论 -
python中lambda的用法
一、lambda函数也叫匿名函数,即,函数没有具体的名称。先来看一个最简单例子:def f(x): return x**2 print f(4)Python中使用lambda的话,写成这样g = lambda x : x**2print g(4)二、lambda和普通的函数相比,就是省去了函数名称而已,同时这样的匿名函数,又不能共享在别的地方调用。其实说的没错,lambda在Pyth...转载 2018-03-05 19:59:23 · 6615 阅读 · 0 评论 -
numpy : percentile使用(多用于去除 离群点)
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”numpy.percentile()百分位数是统计中使用的度量,表示小于这个值的观察值占总数q的百分比。 函数numpy.percentile()接受以下参数。numpy.percentile(a, q, axis)...原创 2018-03-05 21:38:27 · 32245 阅读 · 1 评论 -
Pandas之drop_duplicates:去除重复项
方法DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)参数这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。subset : column label or sequence of labels, optional 用来指定特定的列,默...转载 2018-03-19 15:33:20 · 4130 阅读 · 0 评论 -
sklearn.metrics中的评估方法介绍(accuracy_score, recall_score, roc_curve, roc_auc_score, confusion_matrix)
1、accuracy_score 分类准确率分数是指所有分类正确的百分比。分类准确率这一衡量分类器的标准比较容易理解,但是它不能告诉你响应值的潜在分布,并且它也不能告诉你分类器犯错的类型。sklearn.metrics.accuracy_score(y_true, y_pred, normalize=True, sample_weight=None)normalize:默认值为True,返回正确分...转载 2018-03-21 20:52:39 · 52957 阅读 · 3 评论 -
Pandas的merge和groupby用法
1.merge用来连接两个DataFrame对象,参数on选择基于哪个列进行连接,how选择内连接,左连接还是全连接的方式。merge操作类似于SQL中的join操作。[python] view plain copyimport pandas as pd df1 = pd.DataFrame({'key':['b','b','a','c','a','b'],'data1':range(6)}) ...转载 2018-05-24 16:24:48 · 2389 阅读 · 0 评论 -
机器学习中缺失值的处理
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”1、怎么理解决策树、xgboost能处理缺失值?而有的模型(svm)对缺失值比较敏感呢?首先从两个角度解释你的困惑:工具包自动处理数据缺失不代表具体的算法可以处理缺失项 对于有缺失的数据:以决策树为原型的模型优于依...转载 2018-08-03 22:24:30 · 18885 阅读 · 1 评论 -
特征工程:衡量特征的重要型
知乎特征选择:https://zhuanlan.zhihu.com/p/32749489结合sklearn的几种特征选择方法:https://www.cnblogs.com/hhh5460/p/5186226.html结合sklearn的几种特征选择方法2 :https://blog.csdn.net/bryan__/article/details/51607215...转载 2018-08-04 15:12:31 · 1324 阅读 · 0 评论 -
用sklearn做特征工程
目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法 3.1.2 相关系数法 ...转载 2018-09-05 20:47:00 · 1194 阅读 · 0 评论 -
使用sklearn优雅地进行数据挖掘
目录1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 1.2 数据初貌 1.3 关键技术2 并行处理 2.1 整体并行处理 2.2 部分并行处理3 流水线处理4 自动化调参5 持久化6 回顾7 总结8 参考资料1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤 数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤...转载 2018-09-06 09:49:23 · 544 阅读 · 0 评论 -
matplotlib基础教程-3D绘图(2)
基本3D图的绘制Matplotlib 已经内置了三维图形,所以我们只需要引入这些完整的模块就可以了:from mpl_toolkits.mplot3d import axes3dimport matplotlib.pyplot as plt使用axes3d是因为它需要不同种类的轴域,以便在三维中实际绘制一些东西。 下面:fig = plt.figure()ax1 = fig.add_subpl...翻译 2018-03-01 10:55:57 · 6466 阅读 · 0 评论 -
scikit-learn的model介绍
本文主要是scikit-learn中model的介绍。主要介绍参数coef_ , intercept_ , get_params的使用from sklearn import datasetsfrom sklearn.linear_model import LinearRegression# 直接加载数据集loaded_data = datasets.load_boston()data_X...转载 2018-03-01 09:38:58 · 5303 阅读 · 0 评论 -
pandas数据合并与重塑---join、merge方法
在上一篇文章中,我整理了pandas在数据合并和重塑中常用到的concat方法的使用说明。在这里,将接着介绍pandas中也常常用到的join 和merge方法mergepandas的merge方法提供了一种类似于SQL的内存链接操作,官网文档提到它的性能会比其他开源语言的数据操作(例如R)要高效。和SQL语句的对比可以看这里merge的参数on:列名,转载 2017-11-20 16:29:59 · 1958 阅读 · 0 评论 -
NumPy基础
1、在python环境中导入numpy包,并命名为np[python] view plain copy>>> import numpy as np2、查看numpy版本和配置信息[python] view plain copy>>> print np.__version__ >>> np.__config__.show()3、创建零向量,ze...转载 2017-08-10 11:03:17 · 1546 阅读 · 0 评论 -
Sklearn工具包---train_test_split随机划分训练集和测试集
一般形式:train_test_split是交叉验证中常用的函数,功能是从样本中随机的按比例选取train data和test data,形式为:X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_转载 2017-11-21 16:31:55 · 6021 阅读 · 0 评论 -
NumPy、Pandas、Matplotlib、 scipy机器学习库安装
NumPy系统是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix))。据说NumPy将Python相当于变成一种免费的更强大的MatLab系统。一个用python实现的科学计算包。包括:1、一个强大的N维数组对象Array;2、比较成...原创 2017-07-12 16:24:59 · 1537 阅读 · 0 评论 -
sklearn工具包---分类效果评估(acc、recall、F1、ROC、回归、距离)
一、acc、recall、F1、混淆矩阵、分类综合报告1、准确率第一种方式:accuracy_score# 准确率import numpy as npfrom sklearn.metrics import accuracy_scorey_pred = [0, 2, 1, 3,9,9,8,5,8]y_true = [0, 1, 2, 3,2,6,3,5,9] #共9个数据,3个...原创 2017-11-21 17:20:37 · 15666 阅读 · 2 评论 -
sklearn机器学习算法速查
常见的机器学习算法以下是最常用的机器学习算法,大部分数据问题都可以通过它们解决:线性回归 (Linear Regression)逻辑回归 (Logistic Regression)决策树 (Decision Tree)支持向量机(SVM)朴素贝叶斯 (Naive Bayes)K邻近算法(KNN)K-均值算法(K-means)随机森林 (Random Forest)降低维度算法(Dimensiona...转载 2018-01-30 16:36:14 · 456 阅读 · 0 评论 -
利用sklearn实现k近邻法算法
简介:近邻法(,)是一种基本分类与回归方法,它的原理是,对给定的训练数据集,对新的输入实例,在训练数据集中找到与该实例最近邻的个实例,依据“少数服从多数”的原则,根据这个实例中占多数的类,就把该实例分为这个类。从上面简介可以看出,算法实际上是利用训练数据集对特征空间进行划分。在分类方法中,值的选择、实例之间距离的度量及分类决策规则是近邻法的三个基本要素 。近邻算法计算过程:设有训练数据集...转载 2018-02-28 09:51:58 · 4776 阅读 · 0 评论 -
利用sklearn实现感知机(perceptron)算法
一、感知机(perceptron)感知机简介:感知机(perceptron)是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面。感知机是一种线性分类模型。感知机实际上表示为输入空间到输出空间的映射函数,如下所示: 其中,和称为感知机的模型参数,叫做权值(weight)或权值向量(weight v...转载 2018-02-28 09:47:38 · 15732 阅读 · 5 评论 -
matplotlib基础教程(1)
前言:matplotlib是一个python的第三方库,里面的pyplot可以用来作图。下面来学习一下如何使用它的资源。一、使用前首先在python中使用任何第三方库时,都必须先将其引入。即:import matplotlib.pyplot as plt或者:from matplotlib import pyplot as plt二、用法1.建立空白图fig = plt.figure()得到如下图...原创 2017-08-30 09:58:49 · 797 阅读 · 0 评论 -
python之pandas的基本使用(2)
一、排序和排名排序:sort_index和sort_values函数代码示例:print 'Series排序'x = Series(range(4), index = ['b', 'a', 'c', 'd'])print x.sort_index() # Series按索引排序'''a 1b 0c 2d 3'''print x.sort_values() ...转载 2017-08-29 22:36:55 · 475 阅读 · 1 评论 -
python之pandas的基本使用series和dataframe(1)
一、pandas概述pandas :pannel data analysis(面板数据分析)。pandas是基于numpy构建的,为时间序列分析提供了很好的支持。pandas中有两个主要的数据结构,一个是Series,另一个是DataFrame。二、数据结构 SeriesSeries 类似于一维数组与字典(map)数据结构的结合。它由一组数据和一组与数据相对应的数据标签(索引index)组成。这组...转载 2017-08-29 22:21:52 · 4163 阅读 · 0 评论 -
Numpy基础笔记(1)
Numpy简介 Numpy(Numerical Python的简称)是高性能科学计算和数据分析的基础包。其部分功能如下: ①ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。 ②用于对整组数据进行快速运算的标准数学函数(无需编写循环)。 ③用于读写磁盘数据的工具以及用于操作内存映射文件的工具。 ④线性代数、随机数生成以及傅里叶变换功...转载 2017-08-28 16:42:45 · 363 阅读 · 0 评论 -
Numpy基础笔记---Array 和matrix(2)
一、关于Numpy Numpy是Python第一个矩阵类型,提供了大量矩阵处理的函数。非正式地来说,它是一个使运算更easy,执行速度更快的库,因为它的内部运算是通过C语言实现的。 numpy包含了两种基本的数据类型:矩阵和数组。在使用标准的python时,处理这两种数据类型都需要循环,而在numpy中则可以省略这些语句。二、简单使用数组Array处理数组的一些例子:>&...转载 2017-08-28 16:53:14 · 734 阅读 · 0 评论 -
利用scikit-learn实现数据归一化
本文主要介绍scikit-learn中的数据预处理之归一化。Demo 1import numpy as npfrom sklearn import preprocessing# 定义arraya = np.array([-10, 2.3, 13.7, 56, 108])print a# 对array进行归一化(normalization)# scale进行的操作是按列减去均值, ...转载 2018-02-28 22:43:20 · 10917 阅读 · 1 评论 -
pandas的iloc、loc、ix的使用(列切片及行切片)
loc:通过选取行(列)标签索引数据 iloc:通过选取行(列)位置编号索引数据 ix:既可以通过行(列)标签索引数据,也可以通过行(列)位置编号索引数据df是一个dataframe,列名为A B C D具体值如下:A B C D0 ss 小红 81 aa 小明 d4 f f6 ak 小紫 ...原创 2018-09-15 22:07:30 · 19877 阅读 · 0 评论