自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 [Python]文章关键词提取实践(1)——准备语料库

"""加载停用词"""cut和lcut方法只在返回类型上有区别。这里的pair为。"""过滤非名词、停用词及单字"""word: strflag: strword = segflag = 'n'else:continue提供一个形参pos进行词性/非词性过滤的选择。词性过滤分支过滤非名词词汇。非词性过滤则认为所有的词都是名词。"""加载数据集并切词过滤"""在中将每一句话看做一个文档。

2024-01-28 17:01:50 438 1

原创 [Python]编写一个简易爬虫模型——爬取百度百科图片链接

近日写了个简单的爬虫模型原型用于爬取百度百科的图片链接,实现思路比较简单dataclass。

2024-01-07 23:44:31 1185 1

原创 对《对比Excel,轻松学习Python数据分析》pandas操作部分的整理

本文基于《对比Excel,轻松学习Python数据分析》,对该书的pandas部分进行整理。

2023-11-28 16:26:28 835

原创 装饰器+matplotlib实现快速生成线性相关热力图

init_plt见上一章。# 这里我没有做格式化。

2023-10-23 04:20:00 62

原创 数据探索阶段——对样本数据集的结构和规律进行分析

在收集到初步的样本数据之后,接下来该考虑的问题有:(1)样本数据集的数量和质量是否满足模型构建的要求。(2)是否出现从未设想过的数据状态。(3)是否有明显的规律和趋势。(4)各因素之间有什么样的关联性。解决方案:检验数据集的数据质量、绘制图表、计算某些特征量等,对样本数据集的结构和规律进行分析。从数据质量分析和数据特征分析两个角度出发。

2023-10-22 01:10:41 102 1

原创 pyqt5实现定时关机GUI

刚开始为了熟系框架写的,实际上cmd窗口更省事,打包也更省空间。

2023-10-18 11:10:18 67 1

原创 参数化装饰器实现快速分词及生成词云图

仅作思路参考与记录

2023-10-17 23:40:31 59

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除