自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 泰坦尼克号数据分析 预测建模 准确率测算

泰坦尼克号幸存者数据分析 1.预测建模2.准确率测算3.数据分析、建模思路梳理

2022-01-20 10:59:46 1542

原创 用Python将excel文件按列拆分为多个Excel

用Python将excel文件按列拆分为多个Excel器用到的库:pandas方式1# -*- coding: utf-8 -*-"""将excel文件按照单位名称,拆分成多个excel文件sheet名: 人数计算区分字段名:单位 A"""import pandas as pddata = pd.read_excel("D:\data\文件拆分实验.xls", sheet_name='人数计算')data.dropna(subset=['单位'], inplace=True)

2020-06-14 20:08:42 3399

原创 mysql快速导入csv、txt文件数据,load data infile使用。

1.调整mysql的安全路径2.文件的编码格式很关键,可以用UE或者notepad++等进行编码更改。3.要注意load data infile的语法,尤其是换行符。要看自己的文件的换行符是\n还是\r\n。此外,Windows和Linux的系统生成的txt或csv文件的结束符也并不相同,一个是\r\n,一个是\n。这个不是很关键。4.导入文件的效率比mysql workbench按照导入向导的方式进行导入快了无数倍。

2023-04-18 14:18:02 821

原创 mysql数据库,本地存储位置迁移完整步骤。

C盘要满了,MYSQL的数据文件体积不小,想着挪到其他磁盘,找了某些资料照着一顿猛操作,结果重启服务时直接报错了,汗,又一顿找一顿实验,将最终的可用步骤总结如下:背景:数据库版本mysql 8.0.26,mysql workbench:8.0.26工具:notepad++操作系统:win7。

2023-04-18 11:29:30 2003

原创 python 简历解析初探 (NLP)

python 利用jieba库,解析路径下的简历文件(XML文件)关键库os库:文件读取和输出re库:文本替换parse库:XML文件读取库csv库:csv文件处理库jieba库:NLP文本解析 分词库思路1 获取某一路径下所有简历数据(文件)2 将所有简历文件进行依次遍历,解析XML数据内容3 对复杂内容:履职经历,利用NLP 语言识别,进行分词。4 对分词后结果按照需求情况进行处理和存储5 将处理后的数据按照CSV文件进行输出和保存,便于后续分析上代码import o

2021-03-04 11:13:55 2474 4

原创 python绘制词云全流程解析,jieba库,NLP分词,搭配词频统计输出。

关键库说明:re 文本数据处理 替换字符串内字符数据jieba 文本分词库 ,语句拆分WordCloud 词云图片生产库PIL 图像处理相,强大且历史悠久的库matplotlib 绘图库,无需多言代码逻辑1 读入NLP 的停用词文件 ,为了提高效率,将该数据组织为字典结构2 读入待分析统计的文本数据3 使用jieba进行分词操作, 包括去除空格、去掉标点符号、增加专业名词等4 对分词结果进行统计汇总(数据结构set去重)5 对统计结果按照频率进行排序(数据结构dic检索统

2021-02-28 12:02:27 418 1

原创 获取文件夹内所有文件的MD5值,并将文件全路径及MD5的值输出至csv文件中

功能描述获取文件夹内所有文件的MD5值,并将文件全路径及MD5的值输出至csv文件中。用到的库hashlib :MD5os :文件路径csv: 输出至csv文件1.获取文件夹内相关文件的全路径 存储为数组2.进入列表循环,对每个文件进行MD5计算,将计算结果值存储到数组3.输出至csv文件#功能描述:获取文件夹内所有文件的MD5值,并将文件全路径及MD5的值输出至csv文件中。###1.获取文件夹内相关文件的全路径 存储为数组###2.进入列表循环,对每个文件进行MD5计算,将

2021-02-08 15:41:38 1590 3

原创 对数据库中每条记录进行处理

这里写自定义目录标题如何对数据库的表中所有数据进行遍历核心:SQL中的 LIMIT 与 OFFSET 搭配使用即可。具体步骤:上代码:如何对数据库的表中所有数据进行遍历核心:SQL中的 LIMIT 与 OFFSET 搭配使用即可。SELECT * FROM Students LIMIT 1 OFFSET i ;具体步骤:0.使用数据库为sqlite31.让limit为12.让OFFSET按照查询条件进行 i++ ,遍历即可。这样将会对所有查询结果进行依次遍历,想怎么处理就都行了。上

2021-01-11 21:48:53 294

原创 Excel数据读入pandas,模拟SQL的查询思维,对行数据进行逻辑处理后,输出Excel。(实践总结)

读入两张excel表,用pandas的方式,进行业务逻辑处理。目标1.将两个Excel文件读入,2.用pandas实现对标内数据的类SQL查询,3.对满足业务需求的数据结果进行业务逻辑验证,4.存储校验结果,5.并将结果输出至Excel文件。主要库及函数1.pandas 库2.read_excel、unique、sort_values、itertuples、getattr、list、index。3.重要特性:对于Dataframe对象,查询完之后,可以用itertuples对其结果进

2020-06-21 18:39:21 257

原创 利用 Python 构建不放回元素的组合,并筛选出满足组合多个组合条件的分组方式

Python组合的应用利用的库:itertools相关的函数:combinations(利用list生成组合)查询list中元素的下标:list.index(‘内容’)from itertools import combinationsresult = []利用的库:itertools相关的函数:combinations(利用list生成组合) 完整拷贝list,copy模块,deepcopy

2020-06-15 22:39:53 654 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除