自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(249)
  • 收藏
  • 关注

原创 Python的基础用法(持续更新)

1、去重,并将数据放到列表里面class_list =list(df["店铺"].drop_duplicates()) # 去重,得到店铺这一列的数据df2=pd.DataFrame(class_list,columns=['店铺']) # 将数据放入DataFrame中2、连接两个表pd.merge(left,right,how="inner",on =None,left_on = None,right_on=None)...

2021-07-23 17:55:33 155

原创 (Python)小记2

1、data.drop_duplicates(inplace = True) # 去除重复项 data.index = range(data.shape[0]) # 删除之后,要恢复索引,否则默认行数还是不变,只是将内容删除2、# 查看每一列的缺失情况 data.isnull().sum() / data.shape[0]《===等价===》data.isnull().mean()3、# 显示这一列所有的取值 data.loc[...

2020-07-28 16:18:13 360

原创 sklearn中的类及用法 小结2

sklearn中的决策树,模块sklearn.tree tree.DecisionTreeClassififier 分类树 tree.DecisionTreeRegressor 回归树 tree.export_graphviz 将生成的决策树导出为DOT格式,画图专用 tree.ExtraTreeClassififier 高随机版本的分类树 tree.ExtraTreeRegressor 高随机版本的回归树 tree.DecisionTreeClassifier() #实...

2020-07-20 22:49:32 264

原创 常用又常忘的语句1(Python)

# 因为isnull()只支持DataFrame的形式,所以,在查看有没有空值的时候,先将数据变成表的形式,然后加和# 因为布尔型,true是1,false是0,通过加和可以判断是否有无0pd.DataFrame(data).isnull().sum()使用随机森林填补缺失值的注意事项:1、先找出缺失值的顺序# np.sort()会返回从小到大排序的值,会丢掉索引# np.argsort()会返回从小到大排序的顺序所对应的索引# 找出数据集中,缺失值从小到大排列的特征们的顺序sor

2020-07-08 23:00:11 165

原创 解决cmd输入py文件路径不能执行,使用anaconda prompt 能执行

究其原因,是因为没有配置环境!1、右击此电脑 ---->属性。4、选择 path 进行编辑。如图所示,显示配置成功了~~~

2024-04-12 14:54:49 289

原创 合并同一目录下,所有csv文件到一个excel表中

实现将文件夹下所有的Excel文件读取并合并到同一个Excel文件中,每个文件的内容会保存在不同的sheet中。通过以上代码,就实现了我们的目的了。

2023-08-30 10:09:50 516

原创 获取不同sheet页中A1单元格的数据

以上就可以实现获取想要的sheet页中A1这个单元格的数据内容了~~

2023-08-28 16:44:44 429

转载 数据挖掘——如何利用Python实现产品关联性分析apriori算法篇

在实际业务场景中,我们常常会探讨到产品的关联性分析,本篇文章将会介绍一下如何在Python环境下如何利用apriori算法进行数据分析。1.准备工作测试数据截图如下:数据处理后,结果截图如下:截止到此,准备工作已经完成,下面个将会以df_chg作为参数进行建模。

2023-07-18 16:04:29 1080

原创 解决ValueError: If using all scalar values, you must pass an index

这是因为没有索引所致,所以,需要我们指定索引,来创建DataFrame对象。使用字典创建DataFrame对象时,会报这样得错误。此刻,问题便得到了解决。

2023-07-17 14:24:41 271

原创 使用KMeans聚类分析,预测竞品需要用到的方法

在日常的工作中,我们可能遇到这样的一个需求,通过数据的聚类,为产品提供聚类分类。依据分类的结果,可以进一步找到其竞品。通过原有数据进行特征画像,进行产品画像,为竞品分析提供了数据决策。使用Python进行聚类分析,用到的方法如下:K值的选择:手肘法。

2023-07-12 17:09:34 504

原创 difflib 比较文本相似度,找出错误值

在日常的数据分析过程中,我们可能会遇到这样的问题。在处理数据时,有的文本内容是同一类目,但是由于手工输入错误 或者大小写的问题,可能会造成将产品分到不同的类目下,这时候就需要对数据进行清洗。如何实现快速比较,找出错误值呢?下面我们就介绍一个新的库,当当当~~~~~~~~就是它-------------->difflib。

2023-07-12 14:06:12 261

原创 使用matplotlib画图时,建立双坐标轴

在进行数据的可视化分析时,可能我们分析的两个指标,他们的取值区间相差很大,如果采用一个y轴,就不利于我们观察另一个指标。

2023-07-09 19:50:38 700

原创 pandas中比较两个对象相等性 .eq()函数

在使用pandas做数据分析时,往往我们会有这样的数据需求:为某有某一属性的客户打标签。此刻,.eq()函数,就可以实现它自身的价值。对结果逐行判断,如果某行中至少有一个元素满足条件(即该行中至少有一个True值),则返回True,否则返回False.这里表示比较HostCountry列中的每个元素与axis =0的取值(即是否等于特定条件)。先讲讲它的用途:可以用于对某列进行逐行比较,检验是否有任意一行与特定条件相等。通过对比,我们发现已经成功实现标签的添加了~

2023-07-08 17:35:05 523

原创 统计每列中不同值出现的次数.apply(pd.value_counts)

apply(pd.value_counts)它会对DataFrame中的每一列进行操作,并对每一列中的不同值进行计数。返回值时一个新的DataFrame,其中包含每列不同值出现的次数。在Python 的pandas.DataFrame中有一种操作,它可以大大减轻我们的工作量,方便我们更快地进行数据分析,加快处理工作的效率。pandas 的强大,越使用,也就越爱了。现在就来夸夸它的作用啦!

2023-07-08 14:57:59 1360

转载 Python——enumerate()函数用法总结

这种方法简单,但是可能比较慢,当文件比较大时甚至不能工作。

2023-07-05 16:41:44 386

转载 Python在Excel单元格中写入公式

场景:需要按照固定格式提取数据库中数据到excel中,因统计的内容过多,为减少数据库统计动作,对于需要二次加工的数据在Excel单元格中使用公式完成计算;原文链接:https://blog.csdn.net/weixin_40049608/article/details/121769154。分析:从数据库提取数据,使用常规方法写入公式后能执行成功,但是并不会进行计算,只是以字符形式展示,确定存在单独的写入方法。

2023-06-19 15:22:32 693

原创 rolling的用法实例

在数据分析的过程中,经常用到对计算移动均值,使用rolling可以轻松实现这个功能~rolling函数是一个用于时间序列分析的函数;

2023-06-13 17:20:26 1170

转载 在pandas里pd.Timedelta的简单介绍及使用方法

在pandas里pd.Timedelta的使用方法1.Timedelta基本概念Timedelta参数通过字符串传递参数通过整数传递参数通过数据偏移2.Timedelta简单利用计算生日为1993年5月27日的人今年的年龄优化计算虚岁和实岁实岁虚岁3.利用Timedelta筛选数据。

2023-06-13 14:14:00 1918

原创 Python将多个Excel的sheet分别合并到一个Excel的不同sheet

在工作中,我们会遇到这样一个问题,将指定文件目录下的excel文件进行合并,如果手工去操作,大大降低了效率,使用python处理数据无疑是最简单的操作方式。(2) 获取每个excel工作簿里面的sheet子表名称列表,然后一一读取。(1)构建一个空的excel文件,然后循环数据源目录下文件名称。效果展示:(已实现将所有数据存放在一个工作簿上~)(3) 保存到新建的DataFrame中。

2023-05-19 11:08:11 851

转载 Pandas中的loc与iloc用法详解

loc函数:通过行索引 “Index” 中的具体值来取行数据(如取"Index"为"A"的行)注:loc是location的意思,iloc中的i是integer的意思,仅接受整数作为参数。iloc基于位置索引,简言之,就是第几行第几列,只不过这里的行列都是从0开始的。行标签选取的时候,两端都包含,比如[0:5]指的是0,1,2,3,4,5。iloc函数:通过行号来取行数据(如取第二行的数据)行根据行标签,也就是索引筛选,列根据列标签,列名筛选。2.3 使用loc与iloc提取指定行、列的数据。

2023-05-16 14:20:29 1986

原创 ‘OpenpyxlWriter‘ object has no attribute ‘save‘

使用read_sql(sql,conn)来获取数据库查询的结果,就可以解决这个问题了。

2023-05-11 14:07:41 7576 4

转载 工具包已经下载但是安装时出现“Jupyter command jupyter-contrib not found.”

本文地址:https://blog.csdn.net/duqiumail/article/details/107650058。就成功看到工具Nbextensions在工具栏了。not found.”这个问题了。分别用cmd命令,卸载之前的安装。这时从新启动jupyter。2.2 然后cmd进入目录。2.1 先cmd命令安装。

2023-05-09 16:34:44 1373 3

转载 python——datetime库用法

datetime模块用于是date和time模块的合集,datetime有两个常量,MAXYEAR和MINYEAR,分别是9999和1。datetime.datetime:表示日期时间的类—— 日期时间对象(最常用)datetime.timedelta:表示时间间隔,即两个时间点的间隔。datetime.date:表示日期的类——日期对象。datetime.time:表示时间的类——时间对象。datetime.tzinfo:时区的相关信息。datetime模块定义了5个类。

2023-04-11 16:52:52 103

转载 Python获取给定时间段内的每月第一天以及最后一天

背景需要2016年至2019年每个月的月初及月末,比如这样:(‘2016-01-01’, ‘2016-01-31’),(‘2016-02-01’, ‘2016-02-29’),(‘2016-03-01’, ‘2016-03-31’),(‘2016-04-01’, ‘2016-04-30’),(‘2016-05-01’, ‘2016-05-31’),(‘2016-06-01’, ‘2016-06-30’), 日历模块calendar可以获取每个月的天数,通过给定月初时间 + 该月天数 , 获得下

2023-04-01 16:16:51 567

原创 ValueError: Cannot convert non-finite values (NA or inf) to integer

从第二步的打印结果来看,初始数据的格式为float64。从结果来看,木得问题啦~~~~~~~~~~~~~在数据处理时发现了问题,有问题地数据显示如下。字符串类型的数据,被错误地标记为浮点型;并将这部分数据从列表中截取出来~因此,转换时正确的书写格式为。1 先将浮点型转为整数型。2 将整型转为字符串型。

2023-02-07 11:43:48 2848

原创 TypeError: argument of type ‘NoneType‘ is not iterable

Python程序运行时,报TypeError: argument of type 'NoneType' is not iterable这个错误!

2023-01-30 10:12:03 6200

原创 pandas 将一行拆分为多行,将多行合并为一行

在这个数据需求里面最重要的两点,一个是数据的拆分;一个是数据的合并。

2022-12-02 15:46:37 2266

转载 关于excel:具有OR条件的SUMIF

因此,在此范围内,您保留1和2,并可以随时对其进行修改。=sumif(M4:M206,"Sat",O4:O206)+sumif(M4:M206,"Sun",O4:O206) //在此处添加更多。如何在必须在给定范围内求和的Excel单元格中使用SUMIF公式,而不是查找单个值,而是应查找多个值?SUMIF将返回包含两个结果的"数组",因此您需要SUM将该数组求和为1和2的总数。但是我需要一个可以采用任意多个条件(1,2,3,...或更多)的公式。的标志列-现在您具有一列,其中1是要求和的值。

2022-11-28 15:47:49 2801

转载 Pandas 系列之Series类型数据

DataFrame 是将数个 Series 按列合并而成的二维数据结构,每一列单独取出来是一个 Series;Series的索引具有唯一性,索引既可以是数字,也可以是字符,系统会自动将它们转成一个。默认的索引都是从0开始的数值,可以在创建的时候指定每个索引。结构,它仅由index(索引)和value(值)构成的。值value:苹果、葡萄等;字典的键为索引,值为Series结构对应的值。下面的方法是通过元组生成Series数据。索引Index:0,1,2,3……型(pandas中的字符类型)。

2022-11-18 16:08:22 749

原创 【python】将一个excel表格按照类目拆分成多个表格

至此,我们已经实现了最初的要求,将每天的数据都分别存到一个excel表中。目的:将一个表格拆分成多个表格,并以分类作为excel的表名保存。1、首先将本地表格读取进Python中,并将数据进行处理。2、对全部数据进行循环遍历,保存到规定的路径下。2.对数据进行循环遍历,保存结果。1.1导进需要用到的模块。1.2 对数据进行处理。

2022-08-21 22:22:37 1309

转载 如何利用python中的pandas模块计算环比和同比

在利用python进行业务数据分析时,往往需要使用计算环比、同比及增长率等指标,为了能够更加方便的进行的统计数据,整理方法如下。

2022-08-17 21:52:44 939

转载 sqlserver编写通用脚本实现获取一年前日期的方法

如果每次接到这样的需求需要获取一年前日期,然后每次重新思考怎么去实现肯定是不明智的,或者说公司内已经有人写了脚本实现,但其他同事遇到相同的问题,又重新构思一次,这样就比较浪费时间和精力,耗在这个细节上一些精力,有点像要做饭可是没有米就要先去买米的感觉,而且容易造成不同人写的脚本不统一,不利于代码规范化标准化的原则,不同的人跟进的时候还要去想想之前的人写的是什么逻辑。3. 想查询截止到一年前当月1日0点之前的数据量,以及一年前当月1日0点开始到现在的数据量。作者:zhang502219048。...

2022-08-04 11:46:57 1877

原创 【月度总结】数据库&Python&Excel_202207

1、maxifs()函数maxifs函数返回一组给定条件或标准指定的单元格中的最大值。maxifs(数据区域,条件区域,条件)技巧选取某个分类中占比最大的值作为这个分类的唯一值。比如选取sku编码,单价占比最大的,作为sku编码的唯一价格。1、使用EXcel来解决首先数据清洗,计算sku编码占比。只选择某个店铺某个月份的数据,并提取sku编码,单价,将所有数据去重,使用countifs()函数计数,再计算占比,字段呈现sku编码,单价,个数,个数占比。其次找出sku占比的最大值。......

2022-07-31 23:33:12 349

原创 ERROR:bokeh.core.validation.check:E-1001 (BAD_COLUMN_NAME)

由DataFrame格式转换成ColumnDataSource数据时,不能识别出列名,所以报错了。究其原因为何不能识别出列名,应该是含有index索引列,所以识别的时候出现了问题。查看发现之前的代码是含有index列,然后直接将源数据代入绘图;将index列变为普通列,就可以了。...

2022-07-27 16:16:35 339

原创 Python 中的any _in _for 运算顺序

any()函数是用于判断给定的可迭代参数iterable是否全部为False,如果是则返回false;反之,有一个为True,则返回True。(其中元素除了0、空、FALSE外都算true)Python中的any()有什么用法呢?今天我们就要研究研究它到底有什么用法,能用在什么地方,将它研究个明明白白的!2、在DataFrame中,根据其中一列中,么个单元格的内容中是否含有1列表中的某些关键字来定义返回值。使用带For循环的Pythonany()函数。...

2022-07-19 23:28:50 807

原创 bokeh参数设置详解

p.xaxis.axis_label_text_font_style="FangSong"#设置字体。p.min_border_bottom=10#外边界背景-----下宽度。p.min_border_left=80#外边界背景-----左边宽度。p.min_border_right=80#外边界背景-----右边宽度。p.min_border_top=10#外边界背景-----上宽度。p.outline_line_alpha=0.3#边框透明度。.........

2022-07-19 16:26:20 1087 1

原创 箱型图构成及画图——详解

第三四分位数又称“上四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。4.内限→T形的盒须就是内限,最大值区间Q3+1.5IQR,最小值区间Q1-1.5IQR(IQR=Q3-Q1)2.上四分位数Q1→是将序列平均分成四份,计算(n+1)/4与(n-1)/4两种,一般使用(n+1)/4。5.外限→T形的盒须就是内限,最大值区间Q3+3IQR,最小值区间Q1-3IQR(IQR=Q3-Q1)-包含一组数据的最大值、最小值、中位数、上四分位数(Q3)、下四分位数(Q1)、异常值。...

2022-07-17 11:27:38 8488

原创 选取某个分类占比最大的值,作为该分类的唯一值

在日常的数据需求,我们的数据需求方——甲方巴巴可能会有这样的要求。从数据库中提取两部分数据进行对比。然而对比数据又不是唯一值,怎么确定唯一值是什么呢?就要求我们自己来计算。 比如,我最近接到的一个数据需求。要求将**店铺,7月份,每个sku编码,单价数量占比最高的单价,来作为该sku编码唯一值,用于比对时的衡量标准。我想到了两个解决方案:1、使用EXcel来处理首先数据清洗,计算sku编码占比。只选择某个店铺某个月份的数据,并提取sku编码,单价,将所有数据去重,使用countifs()函数计

2022-07-14 10:00:11 271

转载 【Python基础】pandas中apply与map的异同

前言pandas作为数据处理与分析的利器,它的江湖地位非同小可。在我们数据处理与分析过程中,有时候需要对某一列的每一个值都进行处理,这时候推荐大家使用apply或者map。但是,二者又有啥区别呢?一起来通过几个小例子学习一下吧。APPLY一、直接使用内置函数或者numpy函数二、使用lambda匿名函数三、使用def自定义函数需要注意的是,apply不仅可以用于Series,还可用于DataFrame,具体可以根据自己的业务需要,及数据处理规范来使用即可。MAP一、直接使用内置函数或者nu

2022-07-07 17:17:37 909 1

原创 【月度总结】数据库&Python&Excel_202206

数据库&Python&Excel

2022-07-04 11:50:48 302

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除