数分模型整理v1.0.1

差异性统计分析

一、关联规则

功能集/套餐/购物篮分析

从概念都实例,手把手教你玩转数据挖掘

实验数据集:
链接:https://pan.baidu.com/s/1B0R7BPurryboXN5P2NLCzg
提取码:x58j

二、集成学习
三、聚类

在机器学习里,什么是凸样本集和非凸样本集?
定义:存在两点的直线内的点有不属于集合S的点,集合S就称为凹集。

四、分类

随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。
随机森林的随机性体现在每颗树的训练样本是随机的,树中每个节点的分裂属性集合也是随机选择确定的。
有了这2个随机的保证,随机森林就不会产生过拟合的现象了。

五、回归
六、数据预处理
七、特征工程
1、特征选择
  • filter(过滤式):先对数据进行特征选择,然后再训练学习器。方法:互信息等。
#!/usr/bin/python
# coding=utf-8
import numpy as np
import pandas as pd 
from minepy import MINE

# 度量非计量资料之间相关关系
x = [1, 1, 0, 0]
# y = [10, 10, 0, 0]
y = [10, 0, 10, 0]

mine = MINE(alpha = 0.6, c= 15)
mine.compute_score(x, y)
print(mine.mic())
# 方差过滤
from sklearn.feature_selection import VarianceThreshold
selector = VarianceThreshold()
Xtrain_var0 = selector.fit(Xtrain).transform(Xtrain) # 方差等于0的特征直接过滤掉
# F-检验
from sklearn.feature_selection 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值