一、关联规则
功能集/套餐/购物篮分析
从概念都实例,手把手教你玩转数据挖掘
实验数据集:
链接:https://pan.baidu.com/s/1B0R7BPurryboXN5P2NLCzg
提取码:x58j
二、集成学习
三、聚类
- DBSCAN聚类
- k-means聚类
在机器学习里,什么是凸样本集和非凸样本集?
定义:存在两点的直线内的点有不属于集合S的点,集合S就称为凹集。
…
四、分类
随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。
随机森林的随机性体现在每颗树的训练样本是随机的,树中每个节点的分裂属性集合也是随机选择确定的。
有了这2个随机的保证,随机森林就不会产生过拟合的现象了。
五、回归
六、数据预处理
七、特征工程
1、特征选择
- filter(过滤式):先对数据进行特征选择,然后再训练学习器。方法:互信息等。
#!/usr/bin/python
# coding=utf-8
import numpy as np
import pandas as pd
from minepy import MINE
# 度量非计量资料之间相关关系
x = [1, 1, 0, 0]
# y = [10, 10, 0, 0]
y = [10, 0, 10, 0]
mine = MINE(alpha = 0.6, c= 15)
mine.compute_score(x, y)
print(mine.mic())
# 方差过滤
from sklearn.feature_selection import VarianceThreshold
selector = VarianceThreshold()
Xtrain_var0 = selector.fit(Xtrain).transform(Xtrain) # 方差等于0的特征直接过滤掉
# F-检验
from sklearn.feature_selection