数据挖掘
文章平均质量分 94
数据挖掘、机器学习相关内容。
量化祛魅师
欢迎私信加入我的社群!清华老Q告诉你,量化远没你想的那么复杂!
展开
-
一文上手决策树:从理论到实战
决策树,从原理入门到代码实战。原创 2023-01-24 10:05:36 · 449 阅读 · 0 评论 -
快速理解分类模型评估指标
一、从混淆矩阵说起我们以二分类模型来举例,假设我们要预测用户在借款之后是否会逾期。对于我们的预测来说,有逾期/不逾期两种结果。对于真实情况,同样有逾期/不逾期两种结果。我们以逾期为正例,以不逾期为反例,将预测结果与真实结果进行列联交叉,就生成了混淆矩阵:预测正例预测反例实际正例TP: True PositiveFN: False Negative实际反例...原创 2018-10-30 20:27:34 · 672 阅读 · 0 评论 -
Python数据挖掘入门与实践-Apriori算法勘误
Python数据挖掘入门与实践一书的第四章中演示了如何使用Apriori算法来进行电影推荐。 但是这里的算法计算出了一点小小的问题,下边贴的是正确的版本。import pandas as pdimport sysfrom collections import defaultdictfrom functools import reduceall_ratings = p...原创 2018-08-06 18:40:03 · 539 阅读 · 1 评论 -
邻居来投票:机器学习之快速掌握K-近邻算法分类(Python实战)
K-近邻算法又称KNN算法(K-Nearest Neighbors),既可以用来解决分类问题,也可以用来解决回归问题。如标题所言,KNN算法的核心原理就是让距离最近的“邻居们”来帮忙投票,邻居们决定预测对象的分类或者取值。假设我们有一个已经标记好的数据集,我们知道这个数据集中每个样本的类别(标记),现在有一个新的样本,我们不知道它的分类(标记)是什么,我们的任务就是预测它所属的分类。按照KNN...原创 2018-12-12 18:32:07 · 606 阅读 · 0 评论 -
零基础Python数据分析实战:豆瓣人的电影口味重吗?
在上一篇文章中,我们实战使用urllib和BeautifulSoup抓取了关于豆瓣电影TOP250的非常丰富的信息,包括导演、编剧、演员、上映时间和地区、语言、别名、短评数、影评数、多少人想看、多少人看过等多达23个字段。接下来,我们要做的就是对这些数据进行分析、挖掘,得到尽可能多的信息。毕竟有价值的不是数据,而是从数据中发掘而出的洞见。一、数据清洗我们先读取我们的数据,观察一下:imp...原创 2018-12-10 17:28:30 · 1351 阅读 · 0 评论 -
快速掌握简单线性回归:从理论到实践
在统计学中,线性回归是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。当因变量和自变量之间高度相关时,我们就可以使用线性回归来对数据进行预测。一个带有一个自变量的线性回归方程代表一条直线,为了方便理解,今天我们就拿只有一个自变量的线性回归方程来探讨简单线性回归。今天,我们有三个目标:使用Sci...原创 2018-12-17 19:55:55 · 930 阅读 · 0 评论 -
十分钟掌握多项式回归:拟合非线性关系
之前我们曾经学习了简单线性回归模型的推导、sklearn实战,并尝试从零搭建了一个简单线性回归的模型工具。但是我们遇到的数据并不总是线性的,这时如果我们还拿线性模型去拟合,我们模型的效果就会大打折扣。不过不用担心,我们仍然可以使用线性回归的方法来拟合非线性的数据,只不过我们要先对输入数据做一些处理。一、快速理解多项式回归原理我们先来回顾一下简单线性回归的假设:y^=α+βx\hat{y}=...原创 2019-01-04 16:04:32 · 4359 阅读 · 0 评论 -
特征选择与特征工程初探
特征工程是机器学习的第一步,涉及清理现有数据集、提高信噪比和降低维数的所有技术。大多数算法对输入数据有很强的假设,当使用原始数据集时,它们的性能可能会受到负面影响。另外有些特征之间高度相关,在其中一个特征提供了足够的信息之后,与之相关的其他特征往往无法提供额外的信息。这时我们就需要了解如何减少特征数量或者仅选择最佳特征。一、scikit-learn数据集scikit-learn提供了一些用于...原创 2019-01-03 10:22:29 · 385 阅读 · 0 评论