自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 python实现RFM建模

目录   1、RFM模型的含义   2、RFM分析的前提条件)   3、原始数据   4、数据处理    4.1、什么是R、F、M呢?    4.2、熟悉数据集    4.3、保留有效数据    4.4、选取有效字段    4.5、缺失值处理   5、RFM建模过程    5.1、计算RFM三个指...

2020-02-21 13:05:05

阅读数 3072

评论数 0

原创 DataFrame(14):对比MySQL学习“Pandas的groupby分组聚合”(超详细)

本文叙述使用的“数据集”链接下载地址如下: http://note.youdao.com/noteshare?id=5f44492149116cb6c52233786c1ca98d&sub=6C35AFC6AF9441648F245393DCAC61CB 1、MySQL和Pandas做分组...

2020-02-09 11:15:48

阅读数 2667

评论数 0

原创 足球运动员的数据分析实战(python)

1、案例背景   当前,足球运动是最受欢迎的运动之一。在此万受瞩目的运动下,打算针对足球运动员个人的信息,技能水平等各项指标进行相关的分析与统计。例如,我们可能会关注如下的内容: 足球运动员是否受出生日期的影响? 左撇子适合踢足球吗? 足球运动员的号码是否与位置相关? 足球运动员的年龄与能力具有...

2020-01-18 09:52:18

阅读数 3769

评论数 1

原创 python与mysql数据库交互

1、安装pymysql库 如果你想要使用python操作MySQL数据库,就必须先要安装pymysql库,这个库的安装很简单,直接使用pip install pymysql;进行安装。 假如上面这种方式还是安装不上,就用如下链接找一个合适的安装包进行安装,这个就不细说了,请自行百度。 https...

2020-01-04 13:10:54

阅读数 2436

评论数 3

原创 python多表合并、多工作簿合并、一表案列拆分为多表

一、相关知识点回顾 1、需要使用的相关库 import numpy as np import pandas as pd import os import xlsxwriter import xlrd 2、os.walk(pwd):传入一个文件路径pwd。 1)用法如下 2)案例演示:以我电脑...

2019-12-13 16:28:29

阅读数 2378

评论数 2

原创 seaborn绘图基础介绍

目录   1、seaborn的优点   2、seaborn的官网   3、seaborn的作者介绍<   4、seaborn的缩写为什么是sns,而不是sbn?   5、seaborn与matplotlib的关系?   6、使用seaborn绘图的3种方式(seaborn绘图的优势体现) 1...

2020-02-27 22:41:53

阅读数 39

评论数 0

原创 逻辑回归——一文带你搞懂逻辑回归原理

目录 1、绘制X轴、Y轴平行线 2、绘制折线图   1)问题一:如何将等式左右连续化   2)问题二:使用sigmoid函数,将任意范围的值,映射为(0,1)   3)使用matplotlib绘制sigmoid函数   4)逻辑回归函数的推导 3、逻辑回归——鸢尾花数据集的简单预测 1、逻辑回归的...

2020-02-26 16:03:39

阅读数 369

评论数 0

原创 k-means——平面上100个样本点的聚类分析(通俗易懂)

1、k-means聚类的算法流程 1.随机选取n个样本作为初始类中心; 2.计算各样本与各类中心的距离; 3.将各样本归于最近的类中心点; 4.求各类的样本的均值,作为新的类中心; 5.判定:若类中心不再发生变动或达到指定迭代次数,那么算法结束,否则回到第2步。 2、一个形象的例子:讲述k-...

2020-02-26 11:47:02

阅读数 32

评论数 0

原创 使用“正则”实现不规则数据的中英文提取

1、对于本文的说明   这篇文章,是帮一个群友回答的问题。他的需求是:对于中英文混合的行,只需要中文。对于全英文的行,返回整个英文行。对于全中文的行,返回整个中文行。    2、解答如下 import pandas as pd import re df = pd.read_excel(r&q...

2020-02-24 23:14:13

阅读数 33

评论数 0

原创 情感分析—文本句内的“机械压缩”去重

目录   1、原理说明   2、“单字词”句内去重   3、“双字词”句内去重   4、“三字词”句内去重   5、将上述情况,封装成函数("三字词"以上句内去重) 1、原理说明 1)为什么要进行数据的句内去重?   在做文本分析和情感分析的时候,有时候需要对文本进行分词,做...

2020-02-24 22:00:45

阅读数 65

评论数 0

原创 文件读写(详解)

目录   1、文件读写的流程   2、文件读写的几种常见模式   3、read、readline、readlines的区别   4、对于一个10G的大文件,怎么高效的查看文件中的内容呢? 1、文件读写的流程 1)类比windows中手动操作txt文档,说明python中如何操作txt文件? ① w...

2020-02-23 17:13:12

阅读数 256

评论数 0

原创 金庸《鹿鼎记》词云图的绘制

目录   1、jieba.cut()和jieba.cut_for_search()的使用说明   2、jieba.lcut()的使用说明   3、jieba.add_word()的用法:动态修改词典   4、jieba.load_userdict():动态修改词典集)   5、wordcoloud...

2020-02-22 20:32:45

阅读数 1921

评论数 2

原创 Series和DataFrame绘图(很强大)

目录   1、说明   2、Series对象的绘图技巧   3、DataFrame对象的绘图技巧 1、说明   Series与DataFrame类型的对象也支持图形绘制,使用对象的plot方法即可。如果绘图数据就存在Series或者DataFrame对象中,我们就可以直接绘制,而无需使用plt.p...

2020-02-19 16:02:02

阅读数 300

评论数 0

原创 matplotlib相关图形绘制(二)

目录 1、绘制箱线图 2、绘制散点图与气泡图(所用参数一致) 3、雷达图 1、绘制箱线图 1)作用 箱线图是由一组数据的最大值、最小值、中位数、两个四分位数(上、下四分位数)这五个特征值绘制而成的,它主要的作用是反应原始数据分布的特征,还可以进行多组数据分布特征的比较。 2)语法格式与相关参数说明...

2020-02-19 15:46:20

阅读数 298

评论数 0

原创 matplotlib相关图形绘制(一)

目录 1、绘制X轴、Y轴平行线 2、绘制折线图 3、绘制柱形图 4、绘制帕累托图(在柱形图基础之上绘制双Y轴图) 5、绘制饼图 6、绘制直方图 1、绘制X轴、Y轴平行线 1)作用   绘制X轴、Y轴平行线,主要用来做对比参考。 2)语法格式与相关参数说明 ① 语法格式 绘制X轴平行线 plt.a...

2020-02-19 15:25:15

阅读数 474

评论数 0

原创 matplotlib绘图技巧详解(三)

目录   1、绘图区域设置   2、figure(画布)大小设置   3、标签与刻度设置   4、坐标轴标题、标签与图标题设置   5、添加文本注释、数据标签 1、绘图区域设置:为figure指定不同的axes区域   我们可以在一张图上绘制多个图形,当然,我们也可以将不同的图形绘制到多个不同的区...

2020-02-19 00:51:10

阅读数 291

评论数 0

原创 matplotlib绘图技巧详解(二)

目录    1.目录1    2.目录2    3.目录3    4.目录4 1、颜色、点标记与线型设置 1)常用的参数名:小括号中都是简写 color©:线条颜色。 linestyle(ls):线条形状。 linewidth(lw):线宽。 marker:点标记形状。 markersize(m...

2020-02-19 00:19:42

阅读数 342

评论数 0

原创 pip install安装某些库出现ReadTimeoutError错误的解决办法

1、说明   今天在使用pip install xlutils安装xlutils包的时候,一直出现了该错误ReadTimeoutError: HTTPSConnectionPool(host=‘files.pythonhosted.org’, port=443): Read timed out. ...

2020-02-18 16:25:55

阅读数 212

评论数 0

原创 对比excel,学习pandas数据透视表

1、excel中做数据透视表 1)步骤如下 ① 选中整个数据源; ② 依次点击“插入”—“数据透视表” ③ 选择在Excel中的哪个位置,插入数据透视表 ④ 然后根据实际需求,从不同维度展示结果 ⑤ 结果如下 2、pandas中使用pivot_table()做数据透视表 1)语法格式 p...

2020-02-18 11:10:03

阅读数 251

评论数 0

原创 matplotlib绘图技巧详解(一)

目录   1、 说明   2、 图形交互性设置(jupyter notebook独有的知识)   3、 中文支持等相关设置   4、 “-”(负号)特殊符号的相关设置   5、 保存图像与读取图象设置    1、说明   之前的文章,我们通过图文的方式(如图所示),已经讲述了matplotlib的...

2020-02-14 13:48:44

阅读数 167

评论数 0

原创 matplotlib绘图的核心原理讲解(超详细)

1、核心原理讲解   使用matplotlib绘图的原理,主要就是理解figure(画布)、axes(坐标系)、axis(坐标轴)三者之间的关系。   以“美院学生张三写生画画”为例,来说明这三者之间的关系。   首先,张三想要画画,是不是需要在画板上面准备一张画布。对比到matplotlib中...

2020-02-13 18:13:43

阅读数 1096

评论数 5

原创 python将中文日期转换为数字日期

1、说明   这篇文章是帮一个群友解答的问题。   他有一个需求,就是对于日期的录入都是中文形式的,需要转换为数字形式的。由于python库中没有函数直接进行转换,因此我写了本篇文章。   对于本篇文章中的代码,如果有不懂的地方,可以留言说明,我会解答。    2、测试源数据如下 3、代码如下 ...

2020-02-11 17:04:12

阅读数 342

评论数 0

原创 DataFrame(6):DataFrame的增、删、改、查

1、说明 增:增加一行或一列; 删:删出一行或一列; 改:修改某行或某列; 查:获取Datarame中的值; 2、查:获取值   这里需求在之前的文章讲述过了,大家可以参考这个文章:http://note.youdao.com/noteshare?id=4c36823786ffae864979...

2020-02-09 20:01:18

阅读数 300

评论数 0

原创 DataFrame(12):数据转换——apply(),applymap()函数的使用

1、apply()函数 1)apply()函数作用 ① apply()函数作用于Series   和Series的map()方法作用是一样的,依次取出Series中的每一个元素作为参数,传递给function函数,进行一次转换。 ② apply()函数作用于DataFrame   依次取出Data...

2020-02-07 23:01:44

阅读数 216

评论数 0

原创 DataFrame(11):数据转换——map()函数的使用

1、map()函数 1)map()函数作用   将序列中的每一个元素,输入函数,最后将映射后的每个值返回合并,得到一个迭代器。 2)map()函数原理图 原理解释:   上图有一个列表,元素分别是从1-9。map()函数的作用就是,依次从这个列表中取出每一个元素,然后放到f(x)函数中,最终得到...

2020-02-07 22:51:09

阅读数 265

评论数 0

原创 DataFrame(10):DataFrame运算——累计统计函数

1、相关函数说明 2、原始数据 df = pd.DataFrame({"id":["00{}".format(i) for i in range(1,10)], "score":[2,3,4,4,5...

2020-02-07 22:36:01

阅读数 203

评论数 0

原创 DataFrame(9):DataFrame运算——基本统计函数

1、常用函数说明 在df中使用统计函数,其实很简单,我们主要关注以下3点,就没问题:  ① 了解每个函数的具体含义是什么;  ② 不管是Series还是DataFrame,默认都是自动忽略NaN值,进行运算的;  ③ DataFrame有行、列区分,因此在使用统计函数的时候,一般是结合axis=...

2020-02-07 22:24:50

阅读数 146

评论数 0

原创 DataFrame(8):DataFrame运算——逻辑运算(用于筛选数据)

1、DataFrame逻辑运算 逻辑运算符号:> >= < <= == != 复合逻辑运算符:& | ~ 逻辑运算函数:query()、isin()、between() 逻辑运算的作用:利用逻辑运算,用于筛选数据(很重要) 2、原始数据...

2020-02-07 22:05:01

阅读数 153

评论数 0

原创 DataFrame(7):DataFrame运算——算术运算

1、DataFrame算术运算 加:add 或 + 减:sub 或 - 2、DataFrame与标量之间的运算(这个才是最重要的) 1)原始数据 x = [[np.nan,1,1,1,1],[2,2,np.nan,2,2],[3,3,3,3,3],[4,np.nan,4,4,4]] df = ...

2020-02-04 22:36:18

阅读数 347

评论数 0

原创 DataFrame(13):DataFrame的排序与排名问题

1、说明   DataFrame中的排序分为两种,一种是对索引排序,一种是对值进行排序。   对于索引排序,涉及到对行索引、列索引的排序,并且还涉及到是升序还是降序。函数df.sort_index(axis= , ascending= , inplace=),需要特别注意这三个参数。axis表示对...

2020-02-04 12:14:17

阅读数 154

评论数 0

原创 DataFrame(1):DataFrame结构的详细介绍

1、DataFrame数据结构的解释说明   index表示的是行索引,column表示的是列索引,values表示的是数值,其实不管是行索引,还是列索引都可以看作是索引Index。从每一行来看,DataFrame可以看作是一行行的Series序列上、下堆积起来的,每个Series的索引就是列索...

2020-02-03 22:02:22

阅读数 144

评论数 0

原创 DataFrame(5):DataFrame元素的获取方式(很重要)

1、学习DataFrame元素获取,需要掌握以下几个需求 访问一列 或 多列 访问一行 或 多行 访问某个值 访问某几行中的某几列 访问某几列中的某几行 2、构造一个DataFrame df = pd.DataFrame(np.random.randint(70,100,(4,5)), ...

2020-02-03 16:32:53

阅读数 373

评论数 0

原创 DataFrame(3):DataFrame常用属性说明

1、常用属性如下 ndim 返回DataFrame的维数; shape 返回DataFrame的形状; dtypes 返回DataFrame中每一列元素的数据类型; size 返回DataFrame中元素的个数; T ...

2020-02-02 22:44:05

阅读数 64

评论数 0

原创 Series(五):Series的增、删、改、查

1、说明 增:增 【增加索引的方式,增加值】; 删:删 【删除索引的方式,删除值】; 改:修改值 【获取到某个值后,采用赋值方式修改值】 ; 查:获取值 【切片和索引方式】; 2、查:获取值 这里在之前的文章讲述过了,大家可以参考这个文章:http://note...

2020-02-02 20:38:58

阅读数 58

评论数 0

原创 DataFrame(4):DataFrame的创建方式

1、利用字典生成DataFrame ① 第一种方式:列表组成的字典 stu = {"name":["张三","李四","王燕"], "age":[18,20,22], &...

2020-02-02 10:25:10

阅读数 142

评论数 0

原创 Series(四):Series的底层就是ndarray数组,讲述一下它们在运算时的异同。

1、说明   由于pandas的底层是集成了numpy,因此Series的底层数据就是使用ndarray来构建的,因此我们得到了一个Series后,就可以使用numpy中的函数,对数据进行操作。但是Series与ndarry不同的地方在于,Series中多了一个索引。   这些问题都是细节问题,只...

2020-02-01 21:49:35

阅读数 135

评论数 0

原创 DataFrame中关于object数据类型的说明

1、构造一个DataFrame   从上图可以看出,我们构造了一个DataFrame,这个DataFrame有2列,第一列全部都是数值类型,第二列中既有数值类型又有布尔类型。对于col1列,由于都是同一种数据类型,系统能够辨认出来,这是一种int数值类型(int64是一种默认的数据类型);对于c...

2020-02-01 16:05:25

阅读数 76

评论数 0

原创 python格式化输出(二):f-string格式化输出

1、f-string简介   python3.6引入了一种新的字符串格式化方式:f-tring格式化字符串。从%s格式化到 format格式化再到f-string格式化,格式化的方式越来越直观,f-string的效率也较前两个高一些,使用起来也比前两个简单一些。   同时值得注意的是,f-stri...

2020-02-01 10:53:18

阅读数 203

评论数 0

原创 python中的时间处理模块(二):datetime模块之timedelta类详解

1、datetime模块   datatime模块是在time模块的基础之上做了封装,提供了更多更好用的类供我们使用,常用的有date、time、datetime、timedelta、tzinfo。但是为了更灵活的处理时间,最好是将time模块和datetime模块中的精髓学习到。 ① date...

2020-01-09 15:54:08

阅读数 180

评论数 0

原创 python中的时间处理模块(二):datetime模块之datetime类详解

1、datetime模块   datatime模块是在time模块的基础之上做了封装,提供了更多更好用的类供我们使用,常用的有date、time、datetime、timedelta、tzinfo。但是为了更灵活的处理时间,最好是将time模块和datetime模块中的精髓学习到。 ① date...

2020-01-09 15:45:36

阅读数 183

评论数 0

提示
确定要删除当前文章?
取消 删除