python的drop duplicates_python-drop_duplicates在熊猫中不起作用？

最新推荐文章于 2024-05-17 09:20:11 发布

weixin_39638929

最新推荐文章于 2024-05-17 09:20:11 发布

阅读量156

点赞数

文章标签： python的drop duplicates

我的代码的目的是导入2个Excel文件,对其进行比较,然后将差异打印到新的Excel文件中.

但是,在连接所有数据并使用drop_duplicates函数之后,该代码将被控制台接受.但是,当打印到新的excel文件时,副本仍会在一天之内保留.

我想念什么吗？是否使drop_duplicates函数无效？

我的代码如下：

import datetime

import xlrd

import pandas as pd

#identify excel file paths

filepath = r"excel filepath"

filepath2 = r"excel filepath2"

#read relevant columns from the excel files

df1 = pd.read_excel(filepath, sheetname="Sheet1", parse_cols= "B, D, G, O")

df2 = pd.read_excel(filepath2, sheetname="Sheet1", parse_cols= "B, D, F, J")

#merge the columns from both excel files into one column each respectively

df4 = df1["Exchange Code"] + df1["Product Type"] + df1["Product Description"] + df1["Quantity"].apply(str)

df5 = df2["Exchange"] + df2["Product Type"] + df2["Product Description"] + df2["Quantity"].apply(str)

#concatenate both columns from each excel file, to make one big column containing all the data

df = pd.concat([df4, df5])

#remove all whitespace from each row of the column of data

df=df.str.strip()

df=["".join(x.split()) for x in df]

#convert the data to a dataframe from a series

df = pd.DataFrame({'Value': df})

#remove any duplicates

df.drop_duplicates(subset=None, keep="first", inplace=False)

#print to the console just as a visual aid

print(df)

#print the erroneous entries to an excel file

df.to_excel("Comparison19.xls")

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39638929

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python构建矩阵_python-使用pandas从多个文件构建矩阵

weixin_39970994的博客

11-25

1264

在具有2列的目录中有多个文件(20),例如transcript_id valueENMUST001 2ENMUST003 3ENMUST004 5每个文件中的行数不同我想做的就是以这种方式将所有20个文件合并到一个巨大的矩阵中transcript_id value_file1 value_file2....value_file20ENMUST001 2 3ENMU...

python建立数据库索引_在python中建立索引并选择数据

weixin_26724741的博客

09-14

2129

python建立数据库索引介绍 (Introduction) The Python and NumPy indexing operators [] and attribute operator ‘.’ (dot) provide quick and easy access to pandas data structures across a wide range of use cases. Th...

参与评论您还未登录，请先登录后发表或查看评论

python的drop duplicates_python – Pandas drop_duplicates方法不起作用

weixin_39943926的博客

12-11

857

drop_duplicates不能用于数据框中的列表,如错误消息所示.但是,您可以删除作为str的数据帧上的重复项,然后使用结果中的索引从原始df中提取行.建立df = pd.DataFrame({'Keyword': {0: 'apply', 1: 'apply', 2: 'apply', 3: 'terms', 4: 'terms'},'X': {0: [1, 2], 1: [1, 2], 2...

pandas库中drop_duplicates的小问题

huizxhhui1994的博客

12-27

2333

下面我来解释一下，关于.drop_duplicates()括号中inplace的问题。 drop_duplicates(inplace=True)是直接对原dataFrame进行操作。而drop_duplicates(inplace=False)是重新创建一个新的DataFrame并进行删除，对原DataFrame不进行改变。如:d.drop_duplicates(inplace=Tru

Python基础教程：pd.drop_duplicates删除重复行的方法

Python热爱者的博客

10-20

1万+

drop_duplicates 方法实现对数据框 DataFrame 去除特定列的重复行，返回 DataFrame 格式数据。一、使用语法及参数使用语法： DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False) 参数： subset – 指定特定的列默认所有列 keep:{‘first’, ‘last’, False} – 删除重复项并保留第一次出现的项默认第一个 keep=F

pyhton基础学习8【drop_duplicates去重、corr()、找缺失值、dropna()、fillna()、插值法（拉格朗日、样条）异常检测（拉依达原则和箱线图）】

qq_53968319的博客

06-25

1725

不仅支持单一特性的数据去重，还能依据dataframe的其中一个或者几个特征进行去重操作。分为删除观测记录和删除特征两种，它属于利用减少样本量来换取信息完整度的一种方法，是一种最简单的缺失值处理方法。list列表去重和集合set去重：（list自定义去重，set的元素是唯一的特性去重）上面两种方法：方法一代码冗长，方法二代码简单，但会导致数据的排序发生改变。dropna()函数：删除缺失值，可以删除观测记录，也可以删除特征。数据中的某个或某些特征的值是不完整的，这些值称为缺失值；可分为数值型和类别型。

Python学习之pandas模块duplicated函数的常见用法

分享型博主

10-26

9442

函数的各种用法，例如查找重复项、删除重复项、指定列进行重复项的查找和删除、保留重复项的第一个或最后一个等等。会返回一个布尔数组，指示’col1’列中的每个值是否重复。删除重复项并保留最后一个：如果要删除重复项，但保留最后一个重复项，可以使用。函数的更多常见用法，可以根据具体需求选择合适的方式来处理数据中的重复项。将根据’col1’列的值对重复项进行排序，并保留第一个出现的重复项。上述代码中，首先创建了一个包含重复项的数据集，然后依次应用了列举的。将删除数据中的重复项，并仅保留每个重复组中的最后一个。

python_pandas_note：熊猫笔记

02-10

- **去除重复项**：使用`.drop_duplicates()`。 **5. 数据统计分析** Pandas提供丰富的统计函数，如`mean()`、`median()`、`mode()`、`std()`等。还可以计算描述性统计量，如众数、四分位数等。 **6. 时间序列...

python对csv去除重复行_使用python脚本从csv文件中删除重复的行

weixin_40007541的博客

12-08

1092

5 个答案:答案 0 :(得分：48)更新：2016如果您愿意使用有用的more_itertools外部库：from more_itertools import unique_everseenwith open('1.csv','r') as f, open('2.csv','w') as out_file:out_file.writelines(unique_everseen(f))@ IcyF...

Basics-Of-Pandas:Pandas是用于处理数据集的Python库。它具有分析，清理，浏览和处理数据的功能。该存储库包含对初学者友好的大熊猫实用练习

03-06

4. **数据清洗**: Pandas提供了丰富的数据清洗功能，包括处理缺失值（`fillna()`, `dropna()`)，数据类型转换（`astype()`），去除重复项（`drop_duplicates()`）等。 5. **数据合并与连接**: 通过`merge()`、`...

Python DataFrame使用drop_duplicates()函数去重(保留重复值，取重复值)

09-16

主要介绍了Python DataFrame使用drop_duplicates()函数去重(保留重复值，取重复值)，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

python:删掉重复行之drop_duplicates（）用法