自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 ml-20newsgroups新闻组数据集notes【详细解题步骤】

文本分类,kmeans,贝叶斯分类

2024-03-09 13:13:01 994 1

原创 重复行删除操作df.drop_duplicates和df.duplicated

概念df.duplicated()使用df.cuplicated()来查看重复数据,返回True,False,数据类型是bool.也可以指定某一列是否有重复值df.cuplidated(‘colname’),不指定则默认为第一列。df.dropduplicates(’col‘,keep=‘first’,inplace=False)用来删除重复行。实例读取数据# %% 提取数据 从sqliteimport pandas as pdfrom sqlalchemy import c

2022-05-25 17:12:37 2329 1

原创 管道处理pipe和explode方法使用实例-库位分离,提取合格和半成品库位

实例需求:每个货号的库位信息包含多个库位,需要把合格库位和半成品库位分离出来解决步骤:导入模块,建立sqlite连接器# %% 提取数据 从sqliteimport pandas as pdfrom sqlalchemy import create_engine'''创建sqlite3连接'''eg = create_engine('sqlite:///F:/XX/Database/xx2022.db') #创建数据库连接# 读取数据库文件q_store = """se

2022-05-25 07:16:50 190

原创 df.query的使用和df.loc方法对比

使用df.query()方法筛选DataFrame数据,要比loc方法来的简洁常用方法# 常用筛选df.query('节庆=="夏季"')#loc方法对比df.loc[df['节庆']=="夏季"]数学表达式# 数学表达式 > , + - * df.query('总数量>10000').head()#loc方法对比df.loc[df['总数量']>10000].head()通过变量筛选# 通过变量筛选season = "春节"df.query('节庆

2022-05-25 05:43:55 741

原创 读写txt,csv,excel,sqlite,mysql文件,常用的全在这了

读写txt,csv读写excel读写sqlite读写mysql导入模块#导入模块import pandas as pd from sqlalchemy import create_engine #创建数据库引擎读写txt,csv读取csv,txt# 读取csvfile_path =r''pd.read_csv(file_path)输出csv[[输出结果到csv]]df.to_csv('F:/xx/Inbox/xls2.csv',sep=',')[[输出结果到csv.

2022-05-23 21:42:39 223

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除