机器学习自学笔记

Alan Mathison Turing

特征工程

  • (样本)数据

    • 特征数据:自变量
    • 目标数据(标签):因变量
  • 载体:通常不在数据库中 ①数据大很难储存读写;②格式不符合机器学习要求的数据格式。
    储存在文件中(csv)
    UCI 数据集

  • 应用:智能客服、ET 医疗(人类医生的平均准确率为60%-70%,而当下算法的准确率已经达到85%)、投放广告

from sklearn.feature_extraction.text import CountVectorizer
vector = CountVectorizer()
res = vector.fit_transform(['life is short, I love python','life is too long,I hate python'])
print(res)  #  sparse 矩阵
print(vector.get_feature_names())
print(res.toarray())  # 把 sparse 矩阵转换成数组
# 有分隔符可以分割出中文短语

# 单字母不统计,每个数字表示单词出现的次数
# (0, 2)   1
# (0, 1)   1
# (0, 6)   1
# (0, 4)   1
# (0, 5)   1
# (1, 2)   1
# (1, 1)   1
# (1, 5)   1
# (1, 7)   1
# (1, 3)   1
# (1, 0)   1

# ['hate', 'is', 'life', 'long', 'love', 'python', 'short', 'too']

# [[0 1 1 0 1 1 1 0]
#  [1 1 1 1 0 1 0 1]]
# 对中文抽取词汇
import jieba
jb = jieba.cut('我是一个好人,你是一头猪。')
content = list(jb)
print(content)
# ['我', '是', '一个', '好人', ',', '你', '是', '一头', '猪', '。']

模型

是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习。

监督学习(supervised learning)

  • 分类问题(classification): 1 or 0 离散
  • 回归问题(regression) : y = kx or y = kx2 … 连续

无监督学习(unsupervised learning)

Cocktail party problem algorithm

线性回归

  • 损失函数(square error function)
  • 梯度下降(Gradient descent)
    在这里插入图片描述
    代价函数曲线最低点对应左图的函数即线性回归的目标函数最好的拟合点在这里插入图片描述

线性代数知识
在这里插入图片描述

最小二乘法

决策树与分类算法

ID3 算法

熵(entropy) 越小 确定性越大 有用信息越少
在这里插入图片描述
信息增益:分支属性对于样本集分类好坏程度的度量。
样本集 S 以 A 为分支属性的信息增益 Gain 为 Entropy(S)减去分支属性分裂后各数据的熵分别乘上对应样本占总样本的比(自己描述的好复杂。。)
信息增益最大对应的分类属性具有最强的区分样本能力。

朴素贝叶斯

  • 条件概率(Conditional probability),指在事件B发生的情况下,事件A发生的概率,用P(A|B)表示。
  • 将出现数初始化为1,并将分母初始化为2。这种做法就叫做拉普拉斯平滑(Laplace Smoothing)又被称为加1平滑,是比较常用的平滑方法,它就是为了解决0概率问题。
  • 通过求对数可以避免下溢出或者浮点数舍入导致的错误。同时,采用自然对数进行处理不会有任何损失。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Sink Arsenic

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值