![](https://img-blog.csdnimg.cn/20200113173527791.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python
文章平均质量分 70
Python数据挖掘,数据分析,可视化等
FTDdata
R语言、Python,数据分析,数据挖掘,公众号FTDdata
展开
-
python--pandas长宽数据转换
长型数据(long format dataframe)与宽型数据(wide format dataframe)是两种形式的数据框,在数据分析中高频出现,在数据处理过程中,常常需要在两者之间相互转换。本文基于pandas,介绍长型数据与宽型数据的相互转换操作。环境python3.9win10 64bitpandas==1.2.1宽转长在pandas中,宽型转长型数据有melt和wide_to_long两种方法。meltmelt方法叫做数据融合,是dataFrame拥有的方法,使用较为.原创 2021-04-20 17:36:43 · 8713 阅读 · 1 评论 -
python--pandas删除操作
删除是数据清洗中的高频操作,本文基于pandas,介绍其dataFrame的一些删除操作,包括了删除行,删除列,删除缺失值,删除重复值。环境python3.9win10 64bitpandas==1.2.1本文介绍的方法中,均有inplace参数,其默认值都为False,表示返回新数据框;设置为True表示替换原数据框,返回None删除行/列drop方法是pandas中删除行或列的方法。# 准备数据import pandas as pdpd.set_option('disp.原创 2021-04-12 17:26:33 · 4900 阅读 · 2 评论 -
python--pandas读取excel
对excel文件的读取是数据分析中常见的,在python中,pandas库的read_excel方法能够读取excel文件,包括xls和xlsx格式。本文介绍使用pandas读取excel以及读取过程中一些常见的问题。环境Excel文件的格式为xls和xlsx,pandas读取excel文件需要安装依赖库xlrd和openpyxl。!注意:当xlrd>=2.0时,只支持xls格式,不再支持xlsx。python3.9win10 64bitpandas==1.2.1xlrd==.原创 2021-04-06 18:04:54 · 12055 阅读 · 0 评论 -
python--pandas分组聚合
分组聚合是数据处理中常见的场景,在pandas中用groupby方法实现分组操作,用agg方法实现聚合操作。环境python3.9win10 64bitpandas==1.2.1groupby方法是pandas中的分组方法,对数据框采用groupby方法后,返回的是DataFrameGroupBy对象,一般分组操作后会进行聚合操作。分组import pandas as pdimport numpy as nppd.set_option('display.notebook_repr_.原创 2021-03-26 17:21:17 · 7589 阅读 · 2 评论 -
python--字符串string
python字符串是基本的数据类型,字符串类内置了多个方法,完成对字符串的不同操作。环境python3.9win10 64bit创建字符串的创建,可以通过python内置的类str,也可以使用英文的单引号'或双引号"。strstr类可以传入一个python对象,从而将其转换为字符串.# 整数转为字符串str(123)'123'在python3中,很多对象都自带了__str__()方法,直接调用就可以转为字符串对象。# 列表转为字符串[1,2,'a'].__str__(.原创 2021-03-26 09:39:59 · 7042 阅读 · 2 评论 -
python--元组tuple
元组tuple是python基本的数据结构,是不可变序列,允许有重复元素。环境win10 64bitpython 3.9创建元组的创建可以通过内置的tuple类创建,也可以用小括号()创建,元组中的元素可以是任意数据类型,可嵌套元组。元组与列表很相似,主要的区别是元组一旦创建,其元素不可更改。tuple通过tuple类创建元组实例,传入的参数必须是可迭代对象。常见的数据类型tuple,list,set,dict,str等都是可迭代对象。# 列表创建元组tuple([1,2,3]).原创 2021-03-26 09:39:24 · 6332 阅读 · 2 评论 -
python--集合set
集合set是python基本的数据结构,是可变序列,无序不重复。环境win10 64bitpython 3.9创建集合的创建可以通过内置的set类创建,也可以用大括号{}创建,集合中的元素必须是不可变数据类型,元素有重复值会自动去重。set通过set类创建集合实例,传入的参数必须是可迭代对象。常见的数据类型tuple,set,set,dict,str等都是可迭代对象。# 元组创建集合(自动去重)set((1,2,3,1))# 列表创建集合set([1,2,3])通过字典创.原创 2021-03-26 09:38:53 · 6759 阅读 · 1 评论 -
python--列表list
列表list是python基本的数据结构,是可变序列,允许有重复元素。环境win10 64bitpython 3.9创建列表的创建可以通过内置的list类创建,也可以用方括号[]创建,列表中的元素可以是任意数据类型,列表可嵌套列表。list通过list类创建列表实例,传入的参数必须是可迭代对象。常见的数据类型tuple,list,set,dict,str等都是可迭代对象。# 元组创建列表list((1,2,3))# 集合创建列表list({1,2,3})[1, 2, 3.原创 2021-03-26 09:38:16 · 6696 阅读 · 6 评论 -
python--pandas样式
pandas的DataFrame类拥有style属性,style属性返回Styler类,Styler类的applymap和apply等方法可以很方便的对表格样式做自定义调整。环境python3.9win10 64bitpandas==1.2.1快速了解先通过一个实例快速了解style的设置方法和效果。import pandas as pdimport numpy as np# 构造数据框np.random.seed(24)df = pd.DataFrame(np.random.原创 2021-03-26 09:37:16 · 7361 阅读 · 3 评论 -
Python--字符串格式化f-string
f-string是python3.6引入的新语法,用来替换传统的字符串格式化方法%和format。f-string更方便快捷。环境win10 64bitpython 3.9介绍f-string是python3.6开始引入的新语法,相比于之前的%和format方法,f-string方法能更快速直观的格式化字符串。f-string形式为:f[F]"{content:format}",其中,f或者F为标识符,表示字符串为f-string;content是替换并填入字符串的内容,可以是变.原创 2021-03-26 09:31:23 · 2102 阅读 · 0 评论 -
python--pandas切片
pandas的切片操作是python中数据框的基本操作,用来选择数据框的子集。环境python3.9win10 64bitpandas==1.2.1准备数据import pandas as pdplayer_list = [[1,'M.S.Dhoni', 36, 75, 5428000], [2,'A.B.D Villers', 38, 74, 3428000], [3,'V.Kholi', 31, 70, 8428000],.原创 2021-03-25 15:42:29 · 5322 阅读 · 1 评论 -
Python--发送邮件yagmail
yagmail模块是python中用来发送邮件的第三方模块,简单快速。环境python3.9win10 64bityagmail==0.14.245快速了解下面是一份代码样本,用来可以快速了解一下yagmail模块的使用。import yagmailtry: yag=yagmail.SMTP(user='11111@qq.com',password='authorization code',host='smtp.qq.com') yag.send(to='22222@.原创 2021-03-25 15:37:42 · 878 阅读 · 0 评论 -
pyspark--RDD基本操作
spark中的RDD是一个核心概念,RDD是一种弹性分布式数据集,spark计算操作都是基于RDD进行的,本文介绍RDD的基本操作。Spark 初始化Spark初始化主要是要创建一个SprakContext实例,该实例表示与spark集群的连接。可以通过多种方式创建。SparkContext直接使用SparkContext类创建一个spark上下文,主要参数是指定master和appName。from pyspark import SparkContextsc = SprakContext(.原创 2021-03-25 15:35:49 · 1614 阅读 · 0 评论 -
python--字典dict
字典dict是python中基础的数据类型,key-value键值对的形式表示。具有插入和查找速度快的特点。创建字典可以用关键字dict或者花括号{key:value}的形式创建。注意:key必须是唯一值,重复赋值会覆盖原有值key必须是不可变对象,可以是数字,字符,元组,但不能是列表value可以是任意的数据类型,字典可以嵌套# 花括号{}创建字典d0 = {'a': 1, 'b': 'abc', 'c': False}print(d0){'a': 1, 'b': 'abc',.原创 2021-03-25 15:34:37 · 582 阅读 · 0 评论 -
python--json格式处理
json是轻量级的数据交换格式(JavaScript Object Notation),在web应用中使用较为频繁,json格式与python内置对象的相互转换,是实现python处理json的第一步。使用内置的json模块即可完成json与python的相互转换。数据类型python的常见内置数据类型有dict,tuple等,而在json中,数据类型有object,array等,在相互转换中,类型是一一对应的。在下表中的python数据类型才可以被转为json,集合set、字节byte不能转为js.原创 2021-03-25 15:33:22 · 1042 阅读 · 1 评论 -
python--随机数
python中随机数的相关操作,可以使用自带的random模块或者是numpy模块。random 模块random模块是python自带的模块,包含了一些常用的简单的随机数生成方法。浮点数import random# 生成[0,1)之间的一个随机浮点数random.random()0.4357873596360974# 生成指定范围的一个随机浮点数random.uniform(1, 2)1.1537731999982404整数# 生成指定范围(闭区间)的一个随机整数ra.原创 2021-03-25 15:32:24 · 861 阅读 · 2 评论 -
Linux 中安装jupyter notebook
jupyter notebook是数据工作者常用的工具,具有优秀的交互式数据分析体验。在linux centos7服务器上搭建jupyter notebook服务,通过网页访问的形式使用,不仅能使用到服务器的计算资源,也能更方便进行数据分析。1 环境linux centos7python 3.72 安装jupyter所有操作在root权限下进行。安装jupyter之前,确保服务器中已安装好了python3。本服务器的python3的安装路径为usr/lib/python3.7/。安装ju.原创 2021-03-25 15:31:25 · 2005 阅读 · 1 评论 -
python--装饰器做参数检查
编写自定义python函数后,一般有一个参数检查过程,检查输入的参数是否是定义的类型,参数检查可以避免一些明显错误,也可以提高代码调试时的效率。本文用装饰器加注释表达式的方式,对函数做参数检查。1 装饰器在python中,常常看到@符号,后面的函数就是装饰器,比如在定义一个类的时候,会用到@property,作用是将一个方法转换为类的属性,也是一个装饰器。装饰器可以理解为对函数外加一个行为,这个行为是对你的项目代码是比较有意义的通用行为,常见的行为有打印日子,打印函数计算时长,也比如本次我们要做的参.原创 2021-03-25 15:29:10 · 2345 阅读 · 0 评论 -
Linux 中安装python3
python的两大版本python2和python3,做数据分析,常用的是python3,用python3开发的程序部署到服务器上时,要求服务器上的python环境也是python3。现在Linux服务器一般自带python2。本文介绍Linux环境下安装python3以及一些需要注意点。1 依赖安装gcc是一个用于linux系统下编程的编译器,由于python3需要编译安装,因此,需要首先安装gcc。先查看一下系统中,是否安装了gcc。gcc --versions发现没有安装,则需要安装。.原创 2021-03-25 13:37:13 · 551 阅读 · 2 评论 -
python对MySQL数据库进行读写
数据分析师需要经常从数据库中取数据进行分析,MySQL数据库是较为常用的关系型数据库,python是目前火热的数据分析语言,在python中,利用第三方库直接对数据库进行操作,包括数据的读取和写入等,能极大提高数据分析师的工作效率。本文介绍利用PyMySQL和SQLAlchemy两个python库对MySQL数据库进行读写操作。1 软件版本Win10 64bitPython 3.8P...原创 2020-05-01 11:50:18 · 10472 阅读 · 0 评论 -
pyspark对Mysql数据库进行读写
pyspark是Spark对Python的api接口,可以在Python环境中通过调用pyspark模块来操作spark,完成大数据框架下的数据分析与挖掘。其中,数据的读写是基础操作,pyspark的子模块pyspark.sql 可以完成大部分类型的数据读写。文本介绍在pyspark中读写Mysql数据库。1 软件版本在Python中使用Spark,需要安装配置Spark,这里跳过配置的过...原创 2020-04-27 20:04:46 · 14186 阅读 · 2 评论 -
Linux CentOS7中安装使用PyCharm
在Window上通过PyCharm开发的python程序,在部署到Linux服务器上时,经常需要做调试,如果用服务器自带的vim编辑代码,再进行调试,效率较低。PyCharm是优秀的python开发工具,安装在服务器上,能够提高python的调试效率。本文介绍PyCharm在Linux CentOS7服务器上的安装。下载去官网下载Linux版本的PyCharm,下载的是社区版本,专业版的...原创 2020-04-21 23:37:47 · 11995 阅读 · 0 评论 -
Python--并行计算框架(pathos)
应用python进行数据挖掘或计算时,往往需要遍历多种参数进行数据建模,而单次的建模或计算有时候非常耗时,这时候可以利用python的并行计算功能,加快计算速度。python能够应用并行计算的模块有多个multiprocessing、pathos等。其中multiprocessing模块应用的较多,但对于数据挖掘场景来说,pathos模块更实用,尤其允许输入多个可变参数非常简单实用。...原创 2020-01-13 09:30:19 · 14936 阅读 · 1 评论