一、逻辑回归
逻辑回归定义:逻辑回归时一种解决二分类的算法,其可以应用在广告点击率、判断用户的性别、预测用户是否会购买给定的商品类以及判断一条评论是正面的还是负面的,回归公式为:
输出:[0,1]区间的概率值,默认0.5作为阀值
其中:g(z)为sigmoid函数
逻辑回归的损失函数:与线性回归原理相同,但由于是分类问题,损失函数不一样,只能通过梯度下降求解;
损失函数定义为:
sklearn 逻辑回归API:sklearn.linear_model.LogisticRegression(penalty=‘l2’, C = 1.0)
LogisticRegression总结:
优点:
适合需要得到一个分类概率的场景;
缺点:
当特征空间很大时,逻辑回归的性能不是很好
(看硬件能力)
二、非监督学习之k-means
K -means步骤:
1.随机设置K个特征空间内的点作为初始的聚类中心;
2.对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别