![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
dai_ricky
none
展开
-
泰坦尼克号数据分析 预测建模 准确率测算
泰坦尼克号幸存者数据分析 1.预测建模2.准确率测算3.数据分析、建模思路梳理原创 2022-01-20 10:59:46 · 1562 阅读 · 0 评论 -
python 简历解析初探 (NLP)
python 利用jieba库,解析路径下的简历文件(XML文件)关键库os库:文件读取和输出re库:文本替换parse库:XML文件读取库csv库:csv文件处理库jieba库:NLP文本解析 分词库思路1 获取某一路径下所有简历数据(文件)2 将所有简历文件进行依次遍历,解析XML数据内容3 对复杂内容:履职经历,利用NLP 语言识别,进行分词。4 对分词后结果按照需求情况进行处理和存储5 将处理后的数据按照CSV文件进行输出和保存,便于后续分析上代码import o原创 2021-03-04 11:13:55 · 2494 阅读 · 4 评论 -
python绘制词云全流程解析,jieba库,NLP分词,搭配词频统计输出。
关键库说明:re 文本数据处理 替换字符串内字符数据jieba 文本分词库 ,语句拆分WordCloud 词云图片生产库PIL 图像处理相,强大且历史悠久的库matplotlib 绘图库,无需多言代码逻辑1 读入NLP 的停用词文件 ,为了提高效率,将该数据组织为字典结构2 读入待分析统计的文本数据3 使用jieba进行分词操作, 包括去除空格、去掉标点符号、增加专业名词等4 对分词结果进行统计汇总(数据结构set去重)5 对统计结果按照频率进行排序(数据结构dic检索统原创 2021-02-28 12:02:27 · 424 阅读 · 1 评论 -
获取文件夹内所有文件的MD5值,并将文件全路径及MD5的值输出至csv文件中
功能描述获取文件夹内所有文件的MD5值,并将文件全路径及MD5的值输出至csv文件中。用到的库hashlib :MD5os :文件路径csv: 输出至csv文件1.获取文件夹内相关文件的全路径 存储为数组2.进入列表循环,对每个文件进行MD5计算,将计算结果值存储到数组3.输出至csv文件#功能描述:获取文件夹内所有文件的MD5值,并将文件全路径及MD5的值输出至csv文件中。###1.获取文件夹内相关文件的全路径 存储为数组###2.进入列表循环,对每个文件进行MD5计算,将原创 2021-02-08 15:41:38 · 1625 阅读 · 3 评论 -
对数据库中每条记录进行处理
这里写自定义目录标题如何对数据库的表中所有数据进行遍历核心:SQL中的 LIMIT 与 OFFSET 搭配使用即可。具体步骤:上代码:如何对数据库的表中所有数据进行遍历核心:SQL中的 LIMIT 与 OFFSET 搭配使用即可。SELECT * FROM Students LIMIT 1 OFFSET i ;具体步骤:0.使用数据库为sqlite31.让limit为12.让OFFSET按照查询条件进行 i++ ,遍历即可。这样将会对所有查询结果进行依次遍历,想怎么处理就都行了。上原创 2021-01-11 21:48:53 · 298 阅读 · 0 评论 -
Excel数据读入pandas,模拟SQL的查询思维,对行数据进行逻辑处理后,输出Excel。(实践总结)
读入两张excel表,用pandas的方式,进行业务逻辑处理。目标1.将两个Excel文件读入,2.用pandas实现对标内数据的类SQL查询,3.对满足业务需求的数据结果进行业务逻辑验证,4.存储校验结果,5.并将结果输出至Excel文件。主要库及函数1.pandas 库2.read_excel、unique、sort_values、itertuples、getattr、list、index。3.重要特性:对于Dataframe对象,查询完之后,可以用itertuples对其结果进原创 2020-06-21 18:39:21 · 269 阅读 · 0 评论 -
利用 Python 构建不放回元素的组合,并筛选出满足组合多个组合条件的分组方式
Python组合的应用利用的库:itertools相关的函数:combinations(利用list生成组合)查询list中元素的下标:list.index(‘内容’)from itertools import combinationsresult = []利用的库:itertools相关的函数:combinations(利用list生成组合) 完整拷贝list,copy模块,deepcopy原创 2020-06-15 22:39:53 · 663 阅读 · 1 评论 -
用Python将excel文件按列拆分为多个Excel
用Python将excel文件按列拆分为多个Excel器用到的库:pandas方式1# -*- coding: utf-8 -*-"""将excel文件按照单位名称,拆分成多个excel文件sheet名: 人数计算区分字段名:单位 A"""import pandas as pddata = pd.read_excel("D:\data\文件拆分实验.xls", sheet_name='人数计算')data.dropna(subset=['单位'], inplace=True)原创 2020-06-14 20:08:42 · 3439 阅读 · 0 评论