- 博客(71)
- 资源 (6)
- 问答 (2)
- 收藏
- 关注
原创 Python爬虫:蝉妈妈返回参数data解密
js逆向的步骤不难,主要是以下六点:打开调试模式找到目标接口以及加密参数找到加密参数所在js文件找到加密参数位置打上断点,刷新页面进行调试找到加密的算法,判断是Python改写还是Python调用js文件方式实现
2024-04-13 10:32:20 365
原创 深度学习实战:用Keras搭建深度学习网络做手写数字识别
今天我们用 keras 对手写数字进行了识别,具体的代码部分讲解的不多,其中涉及到 API,你可以参考下 Keras 中文手册。在这个过程里,我们只是使用了 LeNet 的网络模型,实际上 AlexNet、VGG、GoogleNet 和 ResNet 都是基于 CNN 的网络结构。在 CNN 网络中包括了卷积层、池化层和全连接层。一个基于 CNN 的深度学习网络通常是几组卷积层之后,再连接多个全连接层,最后再接 Output 全连接层,而每组的卷积层都是“卷积层 + →池化层?”的结构。
2023-10-12 09:56:40 331 8
原创 深度学习简述
今天我们大概了解了一下深度学习。深度学习也是机器学习的一种。我们之前讲解了数据挖掘十大经典算法,还有逻辑回归、随机森林算法等,这些都是传统的机器学习算法。在日常工作中,可以满足大部分的机器学习任务。但是对于数据量更大,更开放性的问题,我们就可以采用深度学习的算法,让机器自己来找规律,而不是通过我们指定的算法来找分类规律。所以深度学习的普适性会更强一些,但也并不代表深度学习就优于机器学习。一方面深度学习需要大量的数据,另一方面深度学习的学习时间,和需要的计算资源都要大于传统的机器学习。
2023-10-11 09:42:13 476
原创 数据挖掘实战(3):如何对比特币走势进行预测?
今天我给你讲了一个比特币趋势预测的实战项目。通过这个项目你应该能体会到,当我们对一个数值进行预测的时候,如果考虑的是多个变量和结果之间的关系,可以采用回归分析,如果考虑单个时间维度与结果的关系,可以使用时间序列分析。根据比特币的历史数据,我们使用 ARMA 模型对比特币未来 8 个月的走势进行了预测,并对结果进行了可视化显示。你能看到 ARMA 工具还是很好用的,虽然比特币的走势受很多外在因素影响,比如政策环境。不过当我们掌握了这些历史数据,也不妨用时间序列模型来分析预测一下。。
2023-10-11 09:26:56 1157 3
原创 数据挖掘实战(2):信用卡诈骗分析
今天我给你讲了逻辑回归的概念和相关工具的使用,另外学习了在数据样本不平衡的情况下,如何评估模型。这里你需要了解精确率,召回率和 F1 的概念和计算方式。最后在信用卡欺诈分析的项目中,我们使用了逻辑回归工具,并对混淆矩阵进行了计算,同时在模型结果评估中,使用了精确率、召回率和 F1 值,最后得到精确率 - 召回率曲线的可视化结果。从这个项目中你能看出来,不是所有的分类都是样本平衡的情况,针对正例比例极低的情况,比如信用卡欺诈、某些疾病的识别,或者是恐怖分子的判断等,都需要采用精确率 - 召回率来进行统计。
2023-10-10 09:26:52 478 2
原创 数据挖掘实战(1):信用卡违约率分析
今天我给你讲了随机森林的概念及工具的使用,另外针对数据挖掘算法中经常采用的参数调优,也介绍了 GridSearchCV 工具这个利器。并将这两者结合起来,在信用卡违约分析这个项目中进行了使用。很多时候,我们不知道该采用哪种分类算法更适合。即便是对于一种分类算法,也有很多参数可以调优,每个参数都有一定的取值范围。我们可以把想要采用的分类器,以及这些参数的取值范围都设置到数组里,然后使用 GridSearchCV 工具进行调优。。
2023-10-10 09:26:12 181 1
原创 数据可视化实战:如何给毛*易的歌曲做词云展示?
数据可视化实战:如何给毛*易的歌曲做词云展示?1、掌握词云分析工具,并进行可视化呈现;2、掌握 Python 爬虫,对网页的数据进行爬取;3、掌握 XPath 工具,分析提取想要的元素 。
2023-10-09 10:35:02 1007 1
原创 AdaBoost(下):数据分析 | 数据挖掘 | 十大算法之一
今天我带你用 AdaBoost 回归分析对波士顿房价进行了预测。因为这是个回归分析的问题,我们直接使用 sklearn 中的 AdaBoostRegressor 即可。如果是分类,我们使用 AdaBoostClassifier。另外我们将 AdaBoost 分类器、弱分类器和决策树分类器做了对比,可以看出经过多个弱分类器组合形成的 AdaBoost 强分类器,准确率要明显高于决策树算法。所以 AdaBoost 的优势在于框架本身,它通过一种迭代机制让原本性能不强的分类器组合起来,形成一个强分类器。
2023-10-07 17:08:12 415 1
原创 PageRank(上):数据分析 | 数据挖掘 | 十大算法之一
PageRank 的算法原理,对简化的 PageRank 模型进行了模拟。针对简化模型中存在的等级泄露和等级沉没这两个问题,PageRank 的随机浏览模型引入了阻尼因子 d 来解决。同样,PageRank 有很广的应用领域,在许多网络结构中都有应用,比如计算一个人的微博影响力等。它也告诉我们,在社交网络中,链接的质量非常重要。。
2023-10-07 07:45:00 526 1
原创 关联规则挖掘(下):数据分析 | 数据挖掘 | 十大算法之一
Apriori 算法的核心就是理解频繁项集和关联规则。在算法运算的过程中,还要重点掌握对支持度、置信度和提升度的理解。在工具使用上,你可以使用 efficient-apriori 这个工具包,它会把每一条数据中的项(item)放到一个集合(篮子)里来处理,不考虑项(item)之间的先后顺序。在实际运用中你还需要灵活处理,比如导演如何选择演员这个案例,虽然工具的使用会很方便,但重要的还是数据挖掘前的准备过程,也就是获取某个导演的电影数据集。。
2023-10-06 11:26:12 2515 2
原创 关联规则挖掘(上):数据分析 | 数据挖掘 | 十大算法之一
今天我给你讲了 Apriori 算法,它是在“购物篮分析”中常用的关联规则挖掘算法,在 Apriori 算法中你最主要是需要明白支持度、置信度、提升度这几个概念,以及 Apriori 迭代计算频繁项集的工作流程。Apriori 算法在实际工作中需要对数据集扫描多次,会消耗大量的计算时间,所以在 2000 年 FP-Growth 算法被提出来,它只需要扫描两次数据集即可以完成关联规则的挖掘。FP-Growth 算法最主要的贡献就是提出了 FP 树和项头表,通过 FP 树减少了频繁项集的存储以及计算时间。
2023-10-06 11:00:14 1062
原创 EM聚类(下):用EM算法对王者荣耀英雄进行划分
今天我带你一起做了 EM 聚类的实战,具体使用的是 GMM 高斯混合模型。从整个流程中可以看出,我们需要经过数据加载、数据探索、数据可视化、特征选择、GMM 聚类和结果分析等环节。聚类和分类不一样,聚类是无监督的学习方式,也就是我们没有实际的结果可以进行比对,所以聚类的结果评估不像分类准确率一样直观,那么有没有聚类结果的评估方式呢?指标分数越高,代表聚类效果越好,也就是相同类中的差异性小,不同类之间的差异性大。
2023-10-02 13:34:08 2950 5
原创 EM聚类(上):数据分析 | 数据挖掘 | 十大算法之一
EM 算法相当于一个框架,你可以采用不同的模型来进行聚类,比如 GMM(高斯混合模型),或者 HMM(隐马尔科夫模型)来进行聚类。GMM 是通过概率密度来进行聚类,聚成的类符合高斯分布(正态分布)。而 HMM 用到了马尔可夫过程,在这个过程中,我们通过状态转移矩阵来计算状态转移的概率。HMM 在自然语言处理和语音识别领域中有广泛的应用。在 EM 这个框架中,E 步骤相当于是通过初始化的参数来估计隐含变量。M 步骤就是通过隐含变量反推来优化参数。最后通过 EM 步骤的迭代得到模型参数。。
2023-10-02 13:21:06 1687
数据可视化实战:如何给毛*易的歌曲做词云展示?歌词的数据集
2023-10-09
数据分析中PageRank算法使用的数据集:某个大人物的邮件中人物关系数据
2023-10-07
人工智能+数据分析的kmeans算法实践数据源:20 支亚洲球队的聚类问题
2023-10-06
Python爬虫:如何下载懂车帝的电动车数据(完整代码)
2023-09-13
算法:移动石子直到连续 II
2023-09-10
算法题:求最大平均通过率,java答案
2023-09-10
python四种数组模式的创建和相互转换
2023-09-08
python将列表list转数组tuple并输出
2023-09-08
决策树莺尾花的项目代码
2023-09-08
svm支持向量机python代码
2023-09-08
通过百度识图自动识别抖音小姐姐并点赞
2023-09-08
基于 Flask 的后台管理系统
2023-09-07
【数据分析机器学习专用】史上最全1999年至2019年全球地震数据
2022-06-24
怎样快速增加粉丝,有什么窍门吗?
2023-09-30
MD5算法的解密方法
2022-05-10
TA创建的收藏夹 TA关注的收藏夹
TA关注的人