热门小说数据分析——以晋江文学城榜单为例

爬取数据

参考博客:https://blog.csdn.net/weixin_74021639/article/details/138772911

主要使用etree来分析网页,对于格式化强的榜单来说爬取很方便。

数据分析

用到的绘图软件主要是python本身的库和DataEase。

深入一些的分析算法有关联规则Apriori算法SHAP特征重要性分析

关联规则——apriori算法

apriori算法参数含义

在使用 Apriori 算法(通常借助 Python 的mlxtend等相关库来实现)挖掘频繁项集并生成关联规则后,得到的结果数据中包含 antecedents、consequents、antecedent support、consequent support、support、confidence 这些字段,它们各自代表的含义如下:

1. antecedents含义:指的是关联规则中的前项,也就是规则里 “如果……” 这部分的内容。它表示在关联规则里,作为前提条件出现的项集(可以简单理解为一组商品、行为等元素的集合)。例如在关联规则 “如果购买了牛奶和面包,那么会购买鸡蛋” 中,antecedents 对应的就是 frozenset({'牛奶', '面包'}) 这样一个项集,表示规则的前置条件部分。数据类型及呈现形式:通常是 frozenset 类型,因为它是一个无序且不可

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值