基于统计词频分析图书馆采购书籍方向(朴素版)

感谢关注天善智能,走好数据之路↑↑↑

欢迎关注天善智能,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习,问答、求职一站式搞定!

前言

这个故事的开始是一个师姐(现在是本校图书馆老师)想要看看图书馆的被借过的书和没被借过的书的特征

可能是想为之后图书馆采购书籍做个参考。

于是当师姐找到我时

我欣然接受这个task啦~

首先,她给我两个excel文档

打开是这样的:

640

不重要和敏感信息已经打码脱敏~

pandas大法好

接下来,就要使用Python中学过的pandas啦~

在使用pandas过程中,感谢@秦路老师和@诛胖土豆的深夜指导!

我选择jupyter notebook作为IDE 而不是pycharm,就是因为喜欢它的可视化展现和保存执行结果

处理思路:将正题名一列的名字全部合成一条字符串,然后分词。

a=''.join(df['正题名'])#使用join()方法将df正题名一列名字顺序连接起来放在字符串a中

a#看一下a的内容

分词处理

import jieba#导入jieba分词模块,安装和简单使用方法已经在我之前的文章里说过啦~

统计词频

思路:建立一个空字典,用jieba的精准模式分词通过key存分出来的词,value存词频,最后打印词和对应词频

被借过的书分析结果如下:

没被借过的书分析结果如下:

通过观察可以发现:有与、的等无意义的词也被统计了,管理、经济、中国、研究等词在被借过的书和没被借过的书里都高频出现,说明图书馆有很多类似字样的书,而投资、物流、会计等在被借过的书中高频出现,而报告、产业、国际、现代等词在没被借过的书中高频出现,这为图书馆新采购书提供了一点点点点点点参考。

本文作者:天善智能社区小编乐子原创。转载请注明出处。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值