bingbangx-CSDN博客

原创 Python的基础用法（持续更新）

1、去重，并将数据放到列表里面class_list =list(df["店铺"].drop_duplicates()) # 去重，得到店铺这一列的数据df2=pd.DataFrame(class_list,columns=['店铺']) # 将数据放入DataFrame中2、连接两个表pd.merge(left,right,how="inner",on =None,left_on = None,right_on=None)...

2021-07-23 17:55:33 155

原创（Python）小记2

1、data.drop_duplicates(inplace = True) # 去除重复项 data.index = range(data.shape[0]) # 删除之后，要恢复索引，否则默认行数还是不变，只是将内容删除2、# 查看每一列的缺失情况 data.isnull().sum() / data.shape[0]《===等价===》data.isnull().mean()3、# 显示这一列所有的取值 data.loc[...

2020-07-28 16:18:13 360

原创 sklearn中的类及用法小结2

sklearn中的决策树，模块sklearn.tree tree.DecisionTreeClassififier 分类树 tree.DecisionTreeRegressor 回归树 tree.export_graphviz 将生成的决策树导出为DOT格式，画图专用 tree.ExtraTreeClassififier 高随机版本的分类树 tree.ExtraTreeRegressor 高随机版本的回归树 tree.DecisionTreeClassifier() #实...

2020-07-20 22:49:32 264

原创常用又常忘的语句1（Python）

# 因为isnull()只支持DataFrame的形式，所以，在查看有没有空值的时候，先将数据变成表的形式,然后加和# 因为布尔型，true是1，false是0，通过加和可以判断是否有无0pd.DataFrame(data).isnull().sum()使用随机森林填补缺失值的注意事项：1、先找出缺失值的顺序# np.sort()会返回从小到大排序的值，会丢掉索引# np.argsort()会返回从小到大排序的顺序所对应的索引# 找出数据集中，缺失值从小到大排列的特征们的顺序sor

2020-07-08 23:00:11 165

原创解决cmd输入py文件路径不能执行，使用anaconda prompt 能执行

究其原因，是因为没有配置环境！1、右击此电脑 ---->属性。4、选择 path 进行编辑。如图所示，显示配置成功了~~~

2024-04-12 14:54:49 289

原创合并同一目录下，所有csv文件到一个excel表中

实现将文件夹下所有的Excel文件读取并合并到同一个Excel文件中，每个文件的内容会保存在不同的sheet中。通过以上代码，就实现了我们的目的了。

2023-08-30 10:09:50 516

原创获取不同sheet页中A1单元格的数据

以上就可以实现获取想要的sheet页中A1这个单元格的数据内容了~~

2023-08-28 16:44:44 429

转载数据挖掘——如何利用Python实现产品关联性分析apriori算法篇

在实际业务场景中，我们常常会探讨到产品的关联性分析，本篇文章将会介绍一下如何在Python环境下如何利用apriori算法进行数据分析。1.准备工作测试数据截图如下：数据处理后，结果截图如下：截止到此，准备工作已经完成，下面个将会以df_chg作为参数进行建模。

2023-07-18 16:04:29 1080

原创解决ValueError: If using all scalar values, you must pass an index

这是因为没有索引所致，所以，需要我们指定索引，来创建DataFrame对象。使用字典创建DataFrame对象时，会报这样得错误。此刻，问题便得到了解决。

2023-07-17 14:24:41 271

原创使用KMeans聚类分析，预测竞品需要用到的方法

在日常的工作中，我们可能遇到这样的一个需求，通过数据的聚类，为产品提供聚类分类。依据分类的结果，可以进一步找到其竞品。通过原有数据进行特征画像，进行产品画像，为竞品分析提供了数据决策。使用Python进行聚类分析，用到的方法如下：K值的选择：手肘法。

2023-07-12 17:09:34 504

原创 difflib 比较文本相似度，找出错误值

在日常的数据分析过程中，我们可能会遇到这样的问题。在处理数据时，有的文本内容是同一类目，但是由于手工输入错误或者大小写的问题，可能会造成将产品分到不同的类目下，这时候就需要对数据进行清洗。如何实现快速比较，找出错误值呢？下面我们就介绍一个新的库，当当当~~~~~~~~就是它-------------->difflib。

2023-07-12 14:06:12 261

原创使用matplotlib画图时，建立双坐标轴

在进行数据的可视化分析时，可能我们分析的两个指标，他们的取值区间相差很大，如果采用一个y轴，就不利于我们观察另一个指标。

2023-07-09 19:50:38 700

原创 pandas中比较两个对象相等性 .eq()函数

在使用pandas做数据分析时，往往我们会有这样的数据需求：为某有某一属性的客户打标签。此刻，.eq()函数，就可以实现它自身的价值。对结果逐行判断，如果某行中至少有一个元素满足条件（即该行中至少有一个True值），则返回True，否则返回False.这里表示比较HostCountry列中的每个元素与axis =0的取值（即是否等于特定条件）。先讲讲它的用途：可以用于对某列进行逐行比较，检验是否有任意一行与特定条件相等。通过对比，我们发现已经成功实现标签的添加了~

2023-07-08 17:35:05 523

原创统计每列中不同值出现的次数.apply(pd.value_counts)

apply(pd.value_counts)它会对DataFrame中的每一列进行操作，并对每一列中的不同值进行计数。返回值时一个新的DataFrame,其中包含每列不同值出现的次数。在Python 的pandas.DataFrame中有一种操作，它可以大大减轻我们的工作量，方便我们更快地进行数据分析，加快处理工作的效率。pandas 的强大，越使用，也就越爱了。现在就来夸夸它的作用啦！

2023-07-08 14:57:59 1360

转载 Python——enumerate()函数用法总结

这种方法简单，但是可能比较慢，当文件比较大时甚至不能工作。

2023-07-05 16:41:44 386

转载 Python在Excel单元格中写入公式

场景：需要按照固定格式提取数据库中数据到excel中，因统计的内容过多，为减少数据库统计动作，对于需要二次加工的数据在Excel单元格中使用公式完成计算；原文链接：https://blog.csdn.net/weixin_40049608/article/details/121769154。分析：从数据库提取数据，使用常规方法写入公式后能执行成功，但是并不会进行计算，只是以字符形式展示，确定存在单独的写入方法。

2023-06-19 15:22:32 693

原创 rolling的用法实例

在数据分析的过程中，经常用到对计算移动均值，使用rolling可以轻松实现这个功能~rolling函数是一个用于时间序列分析的函数；

2023-06-13 17:20:26 1170

转载在pandas里pd.Timedelta的简单介绍及使用方法

在pandas里pd.Timedelta的使用方法1.Timedelta基本概念Timedelta参数通过字符串传递参数通过整数传递参数通过数据偏移2.Timedelta简单利用计算生日为1993年5月27日的人今年的年龄优化计算虚岁和实岁实岁虚岁3.利用Timedelta筛选数据。

2023-06-13 14:14:00 1918

原创 Python将多个Excel的sheet分别合并到一个Excel的不同sheet

在工作中，我们会遇到这样一个问题，将指定文件目录下的excel文件进行合并，如果手工去操作，大大降低了效率，使用python处理数据无疑是最简单的操作方式。（2）获取每个excel工作簿里面的sheet子表名称列表，然后一一读取。（1）构建一个空的excel文件,然后循环数据源目录下文件名称。效果展示：（已实现将所有数据存放在一个工作簿上~）（3）保存到新建的DataFrame中。

2023-05-19 11:08:11 851

转载 Pandas中的loc与iloc用法详解

loc函数：通过行索引 “Index” 中的具体值来取行数据（如取"Index"为"A"的行）注：loc是location的意思，iloc中的i是integer的意思，仅接受整数作为参数。iloc基于位置索引，简言之，就是第几行第几列，只不过这里的行列都是从0开始的。行标签选取的时候，两端都包含，比如[0:5]指的是0，1，2，3，4，5。iloc函数：通过行号来取行数据（如取第二行的数据）行根据行标签，也就是索引筛选，列根据列标签，列名筛选。2.3 使用loc与iloc提取指定行、列的数据。

2023-05-16 14:20:29 1986

原创 ‘OpenpyxlWriter‘ object has no attribute ‘save‘

使用read_sql(sql,conn)来获取数据库查询的结果，就可以解决这个问题了。

2023-05-11 14:07:41 7576 4

转载工具包已经下载但是安装时出现“Jupyter command jupyter-contrib not found.”

本文地址：https://blog.csdn.net/duqiumail/article/details/107650058。就成功看到工具Nbextensions在工具栏了。not found.”这个问题了。分别用cmd命令，卸载之前的安装。这时从新启动jupyter。2.2 然后cmd进入目录。2.1 先cmd命令安装。

2023-05-09 16:34:44 1373 3

转载 python——datetime库用法

datetime模块用于是date和time模块的合集，datetime有两个常量，MAXYEAR和MINYEAR，分别是9999和1。datetime.datetime：表示日期时间的类—— 日期时间对象（最常用）datetime.timedelta：表示时间间隔，即两个时间点的间隔。datetime.date：表示日期的类——日期对象。datetime.time：表示时间的类——时间对象。datetime.tzinfo：时区的相关信息。datetime模块定义了5个类。

2023-04-11 16:52:52 103

转载 Python获取给定时间段内的每月第一天以及最后一天

背景需要2016年至2019年每个月的月初及月末，比如这样：(‘2016-01-01’, ‘2016-01-31’),(‘2016-02-01’, ‘2016-02-29’),(‘2016-03-01’, ‘2016-03-31’),(‘2016-04-01’, ‘2016-04-30’),(‘2016-05-01’, ‘2016-05-31’),(‘2016-06-01’, ‘2016-06-30’), 日历模块calendar可以获取每个月的天数，通过给定月初时间 + 该月天数，获得下

2023-04-01 16:16:51 567

原创 ValueError: Cannot convert non-finite values (NA or inf) to integer

从第二步的打印结果来看，初始数据的格式为float64。从结果来看，木得问题啦~~~~~~~~~~~~~在数据处理时发现了问题，有问题地数据显示如下。字符串类型的数据，被错误地标记为浮点型；并将这部分数据从列表中截取出来~因此，转换时正确的书写格式为。1 先将浮点型转为整数型。2 将整型转为字符串型。

2023-02-07 11:43:48 2848

原创 TypeError: argument of type ‘NoneType‘ is not iterable

Python程序运行时，报TypeError: argument of type 'NoneType' is not iterable这个错误！

2023-01-30 10:12:03 6200

原创 pandas 将一行拆分为多行，将多行合并为一行

在这个数据需求里面最重要的两点，一个是数据的拆分；一个是数据的合并。

2022-12-02 15:46:37 2266

转载关于excel：具有OR条件的SUMIF

因此，在此范围内，您保留1和2，并可以随时对其进行修改。=sumif(M4:M206,"Sat",O4:O206)+sumif(M4:M206,"Sun",O4:O206) //在此处添加更多。如何在必须在给定范围内求和的Excel单元格中使用SUMIF公式，而不是查找单个值，而是应查找多个值？SUMIF将返回包含两个结果的"数组"，因此您需要SUM将该数组求和为1和2的总数。但是我需要一个可以采用任意多个条件(1,2,3，...或更多)的公式。的标志列-现在您具有一列，其中1是要求和的值。

2022-11-28 15:47:49 2801

转载 Pandas 系列之Series类型数据

DataFrame 是将数个 Series 按列合并而成的二维数据结构，每一列单独取出来是一个 Series；Series的索引具有唯一性，索引既可以是数字，也可以是字符，系统会自动将它们转成一个。默认的索引都是从0开始的数值，可以在创建的时候指定每个索引。结构，它仅由index（索引）和value（值）构成的。值value：苹果、葡萄等；字典的键为索引，值为Series结构对应的值。下面的方法是通过元组生成Series数据。索引Index：0，1，2，3……型（pandas中的字符类型）。

2022-11-18 16:08:22 749

原创【python】将一个excel表格按照类目拆分成多个表格

至此，我们已经实现了最初的要求，将每天的数据都分别存到一个excel表中。目的：将一个表格拆分成多个表格，并以分类作为excel的表名保存。1、首先将本地表格读取进Python中，并将数据进行处理。2、对全部数据进行循环遍历，保存到规定的路径下。2.对数据进行循环遍历，保存结果。1.1导进需要用到的模块。1.2 对数据进行处理。

2022-08-21 22:22:37 1309

转载如何利用python中的pandas模块计算环比和同比

在利用python进行业务数据分析时，往往需要使用计算环比、同比及增长率等指标，为了能够更加方便的进行的统计数据，整理方法如下。

2022-08-17 21:52:44 939

转载 sqlserver编写通用脚本实现获取一年前日期的方法

如果每次接到这样的需求需要获取一年前日期，然后每次重新思考怎么去实现肯定是不明智的，或者说公司内已经有人写了脚本实现，但其他同事遇到相同的问题，又重新构思一次，这样就比较浪费时间和精力，耗在这个细节上一些精力，有点像要做饭可是没有米就要先去买米的感觉，而且容易造成不同人写的脚本不统一，不利于代码规范化标准化的原则，不同的人跟进的时候还要去想想之前的人写的是什么逻辑。3. 想查询截止到一年前当月1日0点之前的数据量，以及一年前当月1日0点开始到现在的数据量。作者：zhang502219048。...

2022-08-04 11:46:57 1877

空空如也

空空如也