机器学习
越奋斗,越幸运
当你遇到困难时,你会如何去面对, 这将会决定你的人生最终能够走多远!
展开
-
03. 非监督学习算法k-means原理及案例
1. k-means的步骤随机设置K个特征空间内的点作为初始的聚类中心对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值)如果计算得出的新中心点与原中心点一样,那么结束,否则重新进行第二步过程2. apisklearn.cluster.KMeans(n_clusters=8,init=‘...原创 2019-11-09 09:47:58 · 271 阅读 · 0 评论 -
02. 分类算法逻辑回归算法实现
1. 逻辑回归定义是一种二分类算法, 处理二分类问题的利器线性回归的式子作为输入, 也能得出概率值2. sigmoid函数[0,1]区间的概率值,默认0.5作为阀值3. 逻辑回归的损失函数、优化与现行回归原理相同, 但由于是分类问题, 损失函数不一样, 只能通过梯度下降求解对数似然损失函数cost(hθ(x),y) = -log(hθ(x)) ...原创 2019-11-09 09:47:04 · 251 阅读 · 0 评论 -
01. 线性回归算法实例
1. 线性回归: 寻找一种能预测的趋势, 线性回归通过一个或者多个自变量(特征值)与因变量(目标值)之间进行建模的回归分析1.1. 线性关系二维:直线关系三维:特征, 目标值, 平面当中1.2. 线性关系定义单个特征y = kx + b 加b是为了对于单个特征的情况更加通用多个特征y = k1房子面积 + k2房子位置 + b1.3. 线性模型f(x)...原创 2019-11-09 09:45:44 · 2352 阅读 · 0 评论 -
05. 分类算法-决策树、随机森林
1. 信息论的基础 - 香农1.1. 信息熵32支球队,log32=5比特64支球队,log64=6比特“谁是世界杯冠军”的信息量应该比5比特少。香农指出,它的准确信息量应该是:H = -(p1logp1 + p2logp2 + ... + p32log32)H的专业术语称之为信息熵,单位为比特公式:H = -(p1logp1 + p2logp2 + ... + p32log...原创 2019-11-09 09:40:59 · 297 阅读 · 0 评论 -
04. 分类模型的评估
1. 准确率estimator.score(): 一般最常见使用的是准确率,即预测结果正确的百分比2. 混淆矩阵在分类任务下,预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合,构成混淆矩阵(适用于多分类) (预测结果) 正例 假例(真实结果)正例 ...原创 2019-11-09 09:40:15 · 717 阅读 · 0 评论 -
03. 分类算法-朴素贝叶斯算法
1. 朴素贝叶斯算法的前提: 特征独立(有的时候说朴素指的就是“特征独立”)朴素贝叶斯中的“朴素”二字突出了这个算法的简易性。朴素贝叶斯的简易性表现该算法基于一个很朴素的假设:所有的变量都是相互独立的,假设各特征之间相互独立,各特征属性是条件独立的。2. 联合概率P(A,B) = P(A)P(B)3. 条件概率P(A|B) = P(AB) / P(B)特性:P(A1,A2...原创 2019-11-09 09:39:14 · 158 阅读 · 0 评论 -
02. k近邻算法实例-鸢尾花数据集
实现from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.neighbors import KNeighborsClassifier# 加载...原创 2019-11-09 09:37:44 · 697 阅读 · 0 评论 -
01. k近邻算法实例-预测入住位置
1. 链接: https://www.kaggle.com/c/facebook-v-predicting-check-ins/overview2. 实现from sklearn.neighbors import KNeighborsClassifierimport pandas as pdfrom sklearn.model_selection import train_test_spl...原创 2019-11-09 09:36:40 · 343 阅读 · 0 评论 -
00. scikit-learn和tensorflow对比
1. scikit-learn优点:封装好,建立模型简单, 预测简单2. scikit-learn缺点:算法的过程,有些参数都在算法api内部优化3. tensorflow封装高低,自己实现线性回归,学习率等等...原创 2019-11-09 09:35:19 · 671 阅读 · 0 评论 -
matplotlib绘图
1. matplotlib 绘图1.1. 案例一(折线图)import matplotlibimport randomfrom matplotlib import pyplot as plt# 设置字体matplotlib.rc("font",family='MicroSoft YaHei',weight="bold")# x,y的取值x = range(120)y = [ra...原创 2019-11-09 09:29:26 · 212 阅读 · 0 评论