python学习
文章平均质量分 65
ckSpark
爱好摄影、探险,终生学习
展开
-
Python-Pandas之索引index相关函数
本文介绍对索引进行 重新排序 以及 更换索引 时的用法,需要注意的是索引对象是无法进行修改的。重新索引 .reindex()reindex函数参数类型使用说明index用于索引的新序列method填充缺失值方法fill_value缺失值替代值limit最大填充通过与array以及series对比进行学习,会更清楚DataFrame的用法和特点。更换索引 .set_index()...原创 2020-09-06 22:42:42 · 3358 阅读 · 0 评论 -
Python-查看已安装模块命令
查看已安装模块列表pip list查看具体模块、内置函数dir(modules) # 获得当前模块的属性列表dir([modules]) # 查看列表的方法查看具体模块等的用法查看python所有的modules:help(‘modules’)单看python所有的modules中包含指定字符串的modules: help(‘modules yourstr’)查看pytho...原创 2019-11-21 23:22:28 · 2660 阅读 · 0 评论 -
Python-Matplotlib绘制图形
一、Why’s MatplotlibMatplotlib:风格类似于Matlab,是基于Python的绘图库,属于Python中最基础的画图工具。他提供了一整套与matlab相似的命令API,十分适合交互式绘图。除了Matplotlib外,还有几个较常用的绘图库:SeabornSeaborn是基于Matplotlib的高级可视化效果库,偏向于统计作图,可用于数据挖掘和机器学习中的变量特...原创 2018-12-02 23:47:49 · 3032 阅读 · 0 评论 -
Python-Seaborn绘制图形
一、Seaborn特点Seaborn是在matplotlib基础上进行更高级的API封装,常在绘制统计图形时使用。二、加载数据构建Seaborn图像并设置主题格式可以使用sns.load_dataset()函数来加载内置的Seaborn数据集,利用sns.set()来设置主题格式。Seaborn有五个预设的主题:darkgrid,whitegrid,dark,white,ticks,默认...原创 2018-12-04 22:19:39 · 2380 阅读 · 0 评论 -
Python编程随时记
一、feature_importances_一般本质是决策树的学习器会有该属性,即特征的重要程度,常用于查看某个模型中用到数据特征的重要性排序。RandomForest中的feature_importance...原创 2018-12-13 22:36:15 · 386 阅读 · 0 评论 -
Python-sklearn包中拆分数据集进行交叉验证的方法对比
一、对比训练模型前,不同拆分数据集方法sklearn.model_selection.KFold()交叉采样,将实验数据划分得到若干个互斥子集。sklearn.model_selection.StratifiedKFold()根据数据标签各类型占比进行交叉采样,将实验数据划分得到若干个互斥子集。sklearn.cross_validation.train_test_split()按特...原创 2018-12-28 21:10:13 · 3430 阅读 · 0 评论 -
机器学习-各类学习器评价指标
一、各类学习器评价指标机器学习是借助算法模型来解析数据,并从中学习,然后对真实世界中事件作出决策或预测的方法。根据是否提供数据的分类结果(数据的标签),可将机器学习方法分为两大类:监督学习(如分类和回归方法),无监督学习(如聚类方法)。在利用机器学习方法对问题作出决策和预测后,我们需要对结果进行评价,此时我们应选择合适的评价指标,不同的学习器相应的指标体系也有差异:分类模型:准确率、ROC-...原创 2019-01-20 22:40:27 · 2078 阅读 · 0 评论 -
机器学习-描述性统计(Python)
描述性统计指标含义numpy/scipy包中求响应统计指标的方法:利用Python进行描述统计分析时,用到numpy库/scipy库1. 中心位置:均值、中位数(分位数)、众数均值(mean(data)):描述了样本观测数据取值相对集中程度众数(mode(data)):样本中出现频率最高的数中位数(median(data)):描述了样本观测数据的中间位置分位数:将一...原创 2019-01-09 23:28:25 · 15159 阅读 · 1 评论 -
数据运营-计算留存率和转化率(漏斗分析&Python)
一、案例数据在数据运营中,留存率分析和转化率(漏斗)分析是经常用到的,本文结合具体案例总结了如何利用python求n日留存率以及各环节间转化率。[指标释义](https://zhuanlan.zhihu.com/p/55823651)案例数据集介绍:本文是利用淘宝app的运营数据进行分析的,数据集中包含以下字段(部分):user_id:用户idtime:用户行为发生时间behavi...原创 2019-01-31 22:17:18 · 12050 阅读 · 2 评论 -
Python-with open() as f的用法
常见的读写操作:with open(r'filename.txt') as f: data_user=pd.read_csv(f) #文件的读操作with open('data.txt', 'w') as f: f.write('hello world') #文件的写操作 相关参数:r: 以只读方式打开文件。文件的指针将会放在文件的开头。这是**默认模式**。r...原创 2019-02-01 21:48:15 · 167321 阅读 · 6 评论 -
Python-matplotlib画图时中文显示为小方框的解决方法
Mac版本:参考:https://www.cnblogs.com/Ootori/p/7716687.html其中加代码时要多一行:import matplotlib as mplWindows版本:参考:https://blog.csdn.net/q1148013214/article/details/81172446...原创 2018-12-23 21:19:02 · 4988 阅读 · 0 评论 -
机器学习-集成学习(ensemble learning)
集成学习ensemble learning:本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。可以用两句话形容:1、“三个臭皮匠顶个诸葛亮”:一堆弱分类器的组合可以成为一个强分类器;2、“知错能改,善莫大焉”:不断在错误中学习,迭代来降低放错概率。一、集成学习概述训练若干个个体学习器(弱学习器)弱学习器可以是同质或异质的:同质:boosting系列算...原创 2018-11-22 22:13:19 · 3731 阅读 · 0 评论 -
Python-配对函数zip()
1、zip将列表、元组或其他序列的元素进行配对,新建成一个元组构成的列表,它生成列表长度由最短的序列决定:#zipseq1=['foo','bar','baz']seq2=['one','two','three']zipped=zip(seq1,seq2)list(zipped)>>>>[('foo', 'one'), ('bar', 'two'), ('ba...原创 2019-03-24 21:38:21 · 2394 阅读 · 0 评论 -
Python-sklearn包中自动调参方法-网格搜索GridSearchCV
sklearn包中自动调参方法-网格搜索GridSearchCV一、GridSearchCV主要作用及函数参数GridSearchCV:作用是在指定的范围内可以自动调参,只需将参数输入即可得到最优化的结果和参数。相对于人工调参更省时省力,相对于for循环方法更简洁灵活,不易出错。from sklearn.model_selection import GridSearchCVclass sk...原创 2018-11-25 16:30:11 · 4989 阅读 · 0 评论 -
Python-sklearn包中StratifiedKFold和KFold生成交叉验证数据集的区别
sklearn包中StratifiedKFold和KFold采样的区别一、StratifiedKFold及KFold主要区别及函数参数KFold交叉采样:将训练/测试数据集划分n_splits个互斥子集,每次只用其中一个子集当做测试集,剩下的(n_splits-1)作为训练集,进行n_splits次实验并得到n_splits个结果。注:对于不能均等分的数据集,前n_samples%n_spl...原创 2018-11-25 00:25:09 · 26494 阅读 · 6 评论 -
Python-Groupby函数应用
Pandas分组和聚合运算–Groupby函数应用一、groupby函数功能根据一个或多个键拆分pandas对象,计算分组摘要统计,如计数、平均值、标准差或用户自定义函数等。二、groupby函数原理可将groupby函数分组聚合的过程分为两步:1、分组split:按照指定键值或分组变量对数据分组2、聚合combine:应用python自带函数或自定义函数进行聚合计算eg.1.分组...原创 2018-11-17 20:32:49 · 17719 阅读 · 0 评论 -
Python-Pandas中Series用法总结
Series:带标签的数组本文对Pandas包中的一维数据类型Series特点及用法进行了总结归纳。2.1 如何创建Sereis#导入Pandas包import pandas as pd#创建Series#1.1.1 通过列表ListlistSer=pd.Series([10,20,30,40])print(listSer)#1.1.2 通过字典dictdictSer=...原创 2018-10-14 20:12:06 · 27692 阅读 · 8 评论 -
Python-Pandas之DataFrame用法总结
DataFrame:类似于表的数据结构本文对Pandas包中二维(多维)数据结构DataFrame的特点和用法进行了总结归纳。可以参考:pandas用法速览3.1 增加数据3.1.1 创建数据框Object Creationimport pandas as pdimport numpy as np#通过Numpy array来创建数据框dates=pd.date_range('...原创 2018-10-14 20:40:00 · 57066 阅读 · 1 评论 -
Pandas-排序函数sort_values()
一、sort_values()函数用途pandas中的sort_values()函数类似于SQL中order by的原理,可以将数据集依照某个字段中的数据进行排序。二、sort_values()函数的具体参数用法:DataFrame.sort_values(by=‘##’,axis=0,ascending=True, inplace=False, na_position=‘la...原创 2018-10-18 22:21:33 · 316936 阅读 · 8 评论 -
Python-格式化符%
格式化符为真实值预留位置,并控制字符串显示的格式。格式化符基础使用方法:格式化符号说明%s字符串 (采用str()的显示)%r字符串 (采用repr()的显示)%c单个字符%b二进制整数%o无符号八进制整数%d / %i有符号十进制整数%x / %X无符号十六进制数(x/X代表转换后的十六进制字符大小写)%e / %E...原创 2018-10-10 00:29:26 · 386 阅读 · 0 评论 -
Pandas-连接合并函数merge()
merge函数用途pandas中的merge()函数类似于SQL中join的用法,可以将不同数据集依照某些字段(属性)进行合并操作,得到一个新的数据集。merge()函数的具体参数用法:DataFrame1.merge(DataFrame2, how=‘inner’, on=None, left_on=None, right_on=None, left_index=False, ...原创 2018-10-16 22:10:39 · 43004 阅读 · 1 评论 -
Python-缺失值分类及Pandas中缺失数据处理函数
一、Python中缺失值分类Python中有三种缺失值(空值):| 形式 |含义 ||–|--|| None | Python内置的None值,如创建一个空的列表list=[] || NA | 在pandas中,将缺失值表示为NA,表示不可用not available,主要表示为np.nan|| NaN | 对于数值数据,pandas使用浮点值NaN(Not a Number)表示...原创 2018-10-21 00:32:16 · 6606 阅读 · 1 评论 -
Pandas-object字符类型转时间类型to_datetime()函数
一、pandas中to_datetime()函数可以将指定数据转换为相应格式的时间类型数据pandas.to_datetime(arg,format=None, exact=True, unit=None)参数含义arg需要转换类型的数据format需要输出为时间类型的格式unit最小时间间隔,如’D’代表一天二、函数实例将数据框中ob...原创 2018-10-24 23:40:19 · 37897 阅读 · 2 评论 -
Pandas-去除重复项函数drop_duplicates()
一、drop_duplicates函数用途pandas中的drop_duplicates()函数可以通过SQL中关键字distinct的用法来理解,根据指定的字段对数据集进行去重处理。二、drop_duplicates()函数的具体参数用法:DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False)...原创 2018-10-28 00:34:27 · 25226 阅读 · 1 评论 -
机器学习-简单线性回归分析(Python)
前言机器学习常用来解决相关分析和回归分析的问题,有时候大家会混淆两者之间的差异,这里通过对比分析来说明两者的区别和联系,最后会以调用sklearn包中LinearRegression方法进行简单线性回归分析为例,说明如何使用python进行数据分析。一、相关分析和回归分析1.1 两者的定义相关分析(Correlation analysis):研究两个或两个以上处于同等地位的随机变量间的...原创 2018-11-04 22:37:53 · 3028 阅读 · 3 评论 -
Python-辨析type/dtype/astype用法
Python中与数据类型相关函数及属性有如下三个:type/dtype/astype。名称描述type()返回参数的数据类型dtype返回数组中元素的数据类型astype()对数据类型进行转换type()用于获取数据类型#type用于获取数据类型import numpy as npa=[1,2,3]print(type(a))#>&...原创 2018-11-07 20:43:21 · 11595 阅读 · 0 评论 -
机器学习-逻辑回归分析(Python)
前言回归和分类方法是机器学习中经常用到的方法,本文首先介绍这两种方法的区别和联系,然后对分类方法中的逻辑回归进行较详细的说明(包括其基本原理及评估指标),最后结合案例介绍如何利用Python进行逻辑回归分析。一、分类与回归1.1什么是分类和回归区分回归问题和分类问题:回归问题:输入变量和输出变量均为连续变量的问题;分类问题:输出变量为有限个离散变量的问题。因此分类及回归分别...原创 2018-11-12 00:16:09 · 36100 阅读 · 5 评论 -
Python-sklearn包中cross_val_score进行交叉验证
sklearn包中cross_val_score进行交叉验证一、cross_val_score函数功能及参数释义验证模型在某个训练集上的稳定性,输出cv=k个预测精度。sklearn.cross_validation.cross_val_score(estimator, X, y=None, scoring=None, cv=None, n_jobs=1,verbose=0, fit_p...原创 2018-11-24 00:35:46 · 5971 阅读 · 0 评论 -
Python-Numpy中Array用法总结
Numpy中array(数组)Numpy主要对象是齐次多维数组,由正整数元组索引,Numpy中维度称为轴(axis),数组的维数称为秩(rank)。可以参考:Numpy快速入门1.1 创建数组常规方法创建数组import numpy as np#一维数组a=np.array([2,3,4])b=np.array([2.,3.,4.])#二维数组c=np.array([[1.,...原创 2018-10-14 19:45:12 · 63454 阅读 · 5 评论