爬取数据
参考博客:https://blog.csdn.net/weixin_74021639/article/details/138772911
主要使用etree来分析网页,对于格式化强的榜单来说爬取很方便。
数据分析
用到的绘图软件主要是python本身的库和DataEase。
深入一些的分析算法有关联规则Apriori算法、SHAP特征重要性分析。
关联规则——apriori算法
apriori算法参数含义
在使用 Apriori 算法(通常借助 Python 的mlxtend等相关库来实现)挖掘频繁项集并生成关联规则后,得到的结果数据中包含 antecedents、consequents、antecedent support、consequent support、support、confidence 这些字段,它们各自代表的含义如下:
1. antecedents含义:指的是关联规则中的前项,也就是规则里 “如果……” 这部分的内容。它表示在关联规则里,作为前提条件出现的项集(可以简单理解为一组商品、行为等元素的集合)。例如在关联规则 “如果购买了牛奶和面包,那么会购买鸡蛋” 中,antecedents 对应的就是 frozenset({'牛奶', '面包'}) 这样一个项集,表示规则的前置条件部分。数据类型及呈现形式:通常是 frozenset 类型,因为它是一个无序且不可