数分模型整理v1.0.1

最新推荐文章于 2024-07-23 21:43:03 发布

iwantMovieLens

最新推荐文章于 2024-07-23 21:43:03 发布

阅读量433

点赞数

文章标签：聚类

本文链接：https://blog.csdn.net/iwantMovieLens/article/details/119117243

版权

差异性统计分析

一、关联规则

功能集/套餐/购物篮分析

从概念都实例，手把手教你玩转数据挖掘

实验数据集：
链接：https://pan.baidu.com/s/1B0R7BPurryboXN5P2NLCzg
提取码：x58j

二、集成学习

三、聚类

DBSCAN聚类
k-means聚类

在机器学习里，什么是凸样本集和非凸样本集？
定义：存在两点的直线内的点有不属于集合S的点，集合S就称为凹集。
…

四、分类

随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。
随机森林的随机性体现在每颗树的训练样本是随机的，树中每个节点的分裂属性集合也是随机选择确定的。
有了这2个随机的保证，随机森林就不会产生过拟合的现象了。

五、回归

六、数据预处理

数据分桶、离散化的好处

七、特征工程

1、特征选择

filter（过滤式）：先对数据进行特征选择，然后再训练学习器。方法：互信息等。

#!/usr/bin/python
# coding=utf-8
import numpy as np
import pandas as pd 
from minepy import MINE

# 度量非计量资料之间相关关系
x = [1, 1, 0, 0]
# y = [10, 10, 0, 0]
y = [10, 0, 10, 0]

mine = MINE(alpha = 0.6, c= 15)
mine.compute_score(x, y)
print(mine.mic())

# 方差过滤
from sklearn.feature_selection import VarianceThreshold
selector = VarianceThreshold()
Xtrain_var0 = selector.fit(Xtrain).transform(Xtrain) # 方差等于0的特征直接过滤掉

# F-检验
from sklearn.feature_selection

最低0.47元/天解锁文章

iwantMovieLens

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数分模型整理v1.0.1

一、关联规则功能集/套餐/购物篮分析关联分析（一）关联规则（二）二、集成学习集成学习bagging三、聚类DBSCAN聚类k-means聚类在机器学习里，什么是凸样本集和非凸样本集？定义：存在两点的直线内的点有不属于集合S的点，集合S就称为凹集。…四、分类使用sklearn库：KNN算法bagging使用sklearn库：SVM反馈神经网络（MLP）Decision Tree（决策树分类）randomforest随机森林是一个包含多个决策树的分类
复制链接

扫一扫