基于统计词频分析图书馆采购书籍方向（朴素版）

最新推荐文章于 2022-10-26 21:11:03 发布

R3eE9y2OeFcU40

最新推荐文章于 2022-10-26 21:11:03 发布

阅读量125

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/R3eE9y2OeFcU40/article/details/79585766

版权

感谢关注天善智能，走好数据之路↑↑↑

欢迎关注天善智能，我们是专注于商业智能BI，大数据，数据分析领域的垂直社区，学习，问答、求职一站式搞定！

前言

这个故事的开始是一个师姐（现在是本校图书馆老师）想要看看图书馆的被借过的书和没被借过的书的特征

可能是想为之后图书馆采购书籍做个参考。

于是当师姐找到我时

我欣然接受这个task啦~

首先，她给我两个excel文档

打开是这样的：

640

不重要和敏感信息已经打码脱敏~

pandas大法好

接下来，就要使用Python中学过的pandas啦~

在使用pandas过程中，感谢@秦路老师和@诛胖土豆的深夜指导！

我选择jupyter notebook作为IDE 而不是pycharm，就是因为喜欢它的可视化展现和保存执行结果

处理思路：将正题名一列的名字全部合成一条字符串，然后分词。

a=''.join(df['正题名'])#使用join（）方法将df正题名一列名字顺序连接起来放在字符串a中

a#看一下a的内容

分词处理

import jieba#导入jieba分词模块，安装和简单使用方法已经在我之前的文章里说过啦~

统计词频

思路：建立一个空字典，用jieba的精准模式分词通过key存分出来的词，value存词频，最后打印词和对应词频

被借过的书分析结果如下：

没被借过的书分析结果如下：

通过观察可以发现：有与、的等无意义的词也被统计了，管理、经济、中国、研究等词在被借过的书和没被借过的书里都高频出现，说明图书馆有很多类似字样的书，而投资、物流、会计等在被借过的书中高频出现，而报告、产业、国际、现代等词在没被借过的书中高频出现，这为图书馆新采购书提供了一点点点点点点参考。

本文作者：天善智能社区小编乐子原创。转载请注明出处。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于统计词频分析图书馆采购书籍方向（朴素版）

感谢关注天善智能，走好数据之路↑↑↑欢迎关注天善智能，我们是专注于商业智能BI，大数据，数据分析领域的垂直社区，学习，问答、求职一站式搞定！前言这个故事的开始是一个师姐（现在是本校图书馆老师）想要看看图书馆的被借过的书和没被借过的书的特征可能是想为之后图书馆采购书籍做个参考。于是当师姐找到我时我欣然接受这个task啦~首先，她给我两个excel文档打开是这样的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。