![](https://img-blog.csdnimg.cn/268003b939a3431e8d97a2be7257387b.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
python机器学习入门
文章平均质量分 71
参照b站的学习内容自主写的笔记
追光而遇
这个作者很懒,什么都没留下…
展开
-
python机器学习入门目录
1.1 人工智能概述1.2 什么是机器学习1.3 机器学习算法分类1.4 机器学习开发流程原创 2021-09-01 13:38:51 · 192 阅读 · 0 评论 -
4.7 总结
线性回归线性模型——线性关系:y=w1x1 + w2x2 +……+ wnxn + b损失函数——最小二乘法/均方误差优化损失正规方程(LinearRegression):小数据场景,不能解决过拟合问题梯度下降(SGDRegressor):数据量大场景模型评估—均方误差欠拟合与过拟合过拟合:模型过于复杂——正则化L1正则化——LASSOL2正则化——Ridge(岭回归)欠拟合:模型过于简单—增加数据、特征线性回归的改进—岭回归正则化力度对模型参数对影响——Ridge()原创 2022-05-12 18:11:53 · 185 阅读 · 0 评论 -
4.6 无监督学习—K-means算法
文章目录4.7.1 什么是无监督学习4.7.2 无监督学习包含算法4.7.3 K-means原理4.7.4 K-meansAPI4.7.5 案例:k-means对Instacart Market用户聚类5.1 分析5.2 代码4.7.6 Kmeans性能评估指标6.1 轮廓系数6.2 轮廓系数值分析6.3 结论6.4 轮廓系数API6.5 用户聚类结果评估4.7.7 K-means总结每日作业4.7.1 什么是无监督学习一家广告平台需要根据相似的人口学特征和购买习惯将美国人口分成不同的小组,以便广告原创 2022-05-12 17:47:50 · 775 阅读 · 0 评论 -
4.5 模型保存和加载
文章目录1. sklearn模型的保存和加载API2. 线性回归的模型保存加载案例1. sklearn模型的保存和加载APIfrom sklearn.externals import joblib保存:joblib.dump(rf, ‘test.pkl’)加载:estimator = joblib.load(‘test.pkl’)2. 线性回归的模型保存加载案例eg:用岭回归的模型进行保存和加载前面都一样from sklearn.datasets import load_bostonf原创 2022-05-12 16:08:44 · 370 阅读 · 0 评论 -
4.4 分类算法—逻辑回归与二分类
文章目录4.4.1 逻辑回归的应用场景4.4.2 逻辑回归的原理1. 输入2. 激活函数3. 损失以及优化3.1 损失3.2 优化4.4.3 逻辑回归API4.4.4 案例:癌症分类预测-良/恶性乳腺癌肿瘤预测1. 分析2. 代码4.4.1 逻辑回归的应用场景广告点击率是否为垃圾邮件是否患病金融诈骗虚假账号看到上面的例子,我们可以发现其中的特点,那就是都属于两个类别之间的判断。逻辑回归就是解决二分类问题的利器4.4.2 逻辑回归的原理1. 输入逻辑回归的输入 就是 线性回归的输出原创 2022-05-12 14:47:42 · 561 阅读 · 0 评论 -
4.3 线性回归的改进—岭回归
文章目录4.3.1 带有L2正则化的线性回归-岭回归1. API2. 观察正则化程度的变化,对结果的影响?3. 波士顿房价预测4.3.1 带有L2正则化的线性回归-岭回归岭回归,其实也是一种线性回归。只不过在算法建立回归方程时候,加上L2正则化的限制,从而达到解决过拟合的效果1. APIsklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver="auto", normalize=False)具有L2正则化的线性回归alpha原创 2022-05-09 22:40:44 · 363 阅读 · 0 评论 -
4.2 欠拟合与过拟合
文章目录4.2.1 什么是过拟合与欠拟合1. 定义2. 原因以及解决办法4.2.2 正则化1. 正则化类别L2正则化(更常用)L1正则化2. 拓展-原理(了解)问题:训练数据训练的很好啊,误差也不大,为什么在测试集上面有问题呢?当算法在某个数据集当中出现这种情况,可能就出现了过拟合现象。4.2.1 什么是过拟合与欠拟合欠拟合过拟合分析o 第一种情况:因为机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别出天鹅。o 第二种情况:机器已经基本能区别天鹅和其他动物了。然后,很不巧已原创 2022-05-09 22:25:59 · 207 阅读 · 0 评论 -
4.1 线性回归
文章目录4.1.1 线性回归的原理1. 线性回归应用场景2 什么是线性回归2.1定义与公式2.2 线性回归的特征与目标的关系分析线性模型4.1.2 线性回归的损失和优化原理(理解记忆)1. 损失函数2. 优化算法2.1 正规方程2.2 梯度下降(Gradient Descent)4.1.3 线性回归API4.1.4 波士顿房价预测1. 流程分析2. 回归性能评估3. 代码4. 正规方程和梯度下降对比4.1.5 拓展-关于优化方法GD、SGD、SAG1. GD2. SGD3. SAG4.1.1 线性回归的原创 2022-05-09 21:57:56 · 174 阅读 · 0 评论 -
3.7 总结
转换器和预估器转换器-特征工程预估器-机器学习算法KNN算法根据你的邻居来确定类别谁是邻居—距离共识k的取值k过小,容易受到异常值的影响k过大,容易受到样本不均衡的影响应用场景:少量数据朴素贝叶斯算法朴素:假定了特征与特征之间的相互独立贝叶斯:贝叶斯公式拉普拉斯平滑系数- 解决:训练集样本量太少导致的概率为0问题缺点:特征属性有关联时其效果不好应用场景:文本分类决策树找到最高效的决策顺序–信息增益信息增益 = 信息熵-条件熵优点:可视化,可解释能力强随原创 2022-05-09 16:12:03 · 302 阅读 · 0 评论 -
3.6 集成学习方法之随机森林
文章目录3.6.1 什么是集成学习方法3.6.2 什么是随机森林3.6.3 随机森林原理过程为什么采用BootStrap抽样3.6.4 API3.6.5 随机森林预测案例3.6.6 总结3.6.1 什么是集成学习方法集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。3.6.2 什么是随机森林在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别原创 2022-05-09 15:45:20 · 127 阅读 · 0 评论 -
3.5 决策树
1、认识决策树决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法怎么理解这句话?通过一个对话例子相亲对话想一想这个女生为什么把年龄放在最上面判断!!!!!!!!!2、决策树分类原理详解为了更好理解决策树具体怎么分类的,我们通过一个问题例子?银行贷款数问题:如何对这些客户进行分类预测?你是如何去划分?有可能你的划分是这样的贷款划分1那么我们怎么知道这些特征哪个更好放在最上面,那么决策树的真是划分是这样的贷款划原创 2022-05-06 17:48:12 · 516 阅读 · 0 评论 -
3.4 朴素贝叶斯算法
文章目录3.4.1 什么是朴素贝叶斯分类方法3.4.2 概率基础3.4.3 条件概率与联合概率3.4.4 贝叶斯公式3.4.5 API3.4.6 案例:20类新闻分类3.4.7 朴素贝叶斯算法总结3.4.8总结3.4.1 什么是朴素贝叶斯分类方法垃圾邮件分类文章分类3.4.2 概率基础2.1 概率(Probability)定义概率定义为一件事情发生的可能性扔出一个硬币,结果头像朝上某天是晴天P(X) : 取值在[0, 1]2.2 女神是否喜欢计算案例在讲这两个概率之前我们通过一个例原创 2022-04-11 23:39:04 · 756 阅读 · 0 评论 -
3.3 模型选择与调优
文章目录3.3.1 什么是交叉验证(cross validation)3.3.2 超参数搜索-网格搜索(Grid Search)模型选择与调优API3.3.3 鸢尾花案例增加k值调优3.3.1 什么是交叉验证(cross validation)交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成5份,其中一份作为验证集。然后经过5次(组)的测试,每次都更换不同的验证集。即得到5组模型的结果,取平均值作为最终结果。又称5折交叉验证。1. 分析我们之前知道数据分为训练集和测试集,但是为了原创 2022-04-11 21:03:16 · 203 阅读 · 0 评论 -
3.2 K-近邻算法
文章目录3.2.1 什么是K-近邻算法1. K-近邻算法(KNN,K Nearest Neighbor)原理2. 电影类型分析3.2.2 K-近邻算法API3.2.3 案例1:鸢尾花种类预测1. 数据集介绍2. 步骤分析3.2.4 K-近邻总结3.2.1 什么是K-近邻算法红圈表示我目前所在地,但是我不知道我在北京的哪个区,但是我们知道我们距离上面五个人物之间的距离和人物所在的区,那么我们可以推断,离我们最近的人所在区的区就是我们所在的区,也就是小蓝所在的朝阳区KNN核心思想:根据你的“邻居”来推断原创 2022-04-11 19:28:15 · 335 阅读 · 0 评论 -
3.1 sklearn转换器和估计器
学习目标目标o 知道数据集的分为训练集和测试集o 知道sklearn的分类、回归数据集应用o 无拿到的数据是否全部都用来训练一个模型?文章目录3.1.1 转换器--特征工程的父类3.1.2 估计器(sklearn机器学习算法的实现)3.1.1 转换器–特征工程的父类想一下之前做的特征工程的步骤?1、实例化 (实例化的是一个转换器类(Transformer))2、调用fit_transform(对于文档建立分类词频矩阵,不能同时调用)我们把特征工程的接口称之为转换器,其中转换器原创 2022-04-11 17:30:24 · 1412 阅读 · 0 评论 -
2.6 主成分分析
学习目标目标o 应用PCA实现特征的降维应用o 用户与物品类别之间主成分分析文章目录2.6.1 什么是主成分分析(PCA)1. 计算案例理解(了解,不记忆)2. API3. 数据计算2.6.2 案例:探究用户对物品列别的喜好细分降维需求2.6.1 什么是主成分分析(PCA)定义:高维数据转化为低维数据的过程,在此过程中可能会舍弃原有数据、创造新的变量作用:是数据维数压缩,尽可能降低原数据的维数(复杂度),损失少量信息。应用:回归分析或者聚类分析当中对于信息一词,在决策树中会进行介绍原创 2022-04-07 21:27:59 · 472 阅读 · 0 评论 -
2.5 特征降维--删除低方差特征与相关系数
学习目标应用VarianceThreshold实现删除低方差特征了解相关系数低特点和计算应用相关性系数实现特征选择文章目录2.5.1 降维2.5.2 降维的两种方式特征选择主成分分析(可以理解一种特征提取的方式)2.5.3 特征选择1. 定义2. 方法3. 模块4. 过滤式4.1 低方差特征过滤4.1.1 API4.1.2数据计算4.2 相关系数4.2.2 公式计算案例(了解,不用记忆)4.2.3 特点4.2.4 API4.2.5 案例:股票的财务指标相关性计算2.5.1 降维在之前原创 2022-04-07 21:22:01 · 374 阅读 · 0 评论 -
2.4 特征预处理--归一化&标准化
文章目录目标o 了解数据型数据、类别型数据特点o应用什么是预处理?原创 2022-03-26 17:42:11 · 1836 阅读 · 0 评论 -
2.3 特征抽取
目标o 应用DictVectorizer实现对类别特征值进行数据化、离散化o 应用Countvectorizer实现对文本特征值进行数值化o 应用TfidVectorizer实现对文本特征值进行数值化o 说出两种文本特征提取的方式区别应用o 无文章目录2.3.1 特征提取1 将任意数据(如文本或者图像)转换为可用于机器学习的数学特征特征提取API2.3.2 字典特征提取1. 应用2.流程分析2.3 总结什么是特征提取?文本类型–>数值类型–>数值2.3.1 特征.原创 2021-10-21 20:27:36 · 140 阅读 · 0 评论 -
2.2 特征工程介绍
学习目标目标o 了解特征工程在机器学习中的重要性o 知道特征工程的分类应用o 无文章目录2.2.1 为什么需要特征工程(Feature Engineering)2.2.2 什么是特征工程2.2.3 特征工程的位置与数据处理的比较2.2.1 为什么需要特征工程(Feature Engineering)机器学习领域的大神Andrew Ng(吴恩达)老师说"Coming up with feature is difficult,time-consuming,requires expert kn原创 2021-09-03 16:47:06 · 105 阅读 · 0 评论 -
2.1 数据集
文章目录2.1.1 可用数据集2.1.2 sklearn数据集1 scikit-learn数据集API介绍2 sklearn小数据集3 sklearn大数据集4 sklearn数据集的使用目标o 知道数据集的分为训练集和测试集o 会使用sklearn的数据集应用o 无2.1.1 可用数据集公司内部 百度数据接口 花钱数据集 政府学习阶段可用的数据集:sklearn scikit-learn网址kaggle kaggle网址UCI UCI数据集网址S原创 2021-09-03 15:30:44 · 129 阅读 · 0 评论 -
1.5 学习框架和资料介绍
文章目录1.5.1 机器学习库与框架1.5.2 书籍资料1.5.3 提升内功需要明确几点算法是核心,数据和计算是基础找准定位怎么做?入门实战类书籍机器学习 - 周志华(西瓜书)统计学习方法 - 李航深度学习(花书)1.5.1 机器学习库与框架大部分复杂模型的算法设计都是算法工程师在做,而我们分析很多的数据分析具体的业务应用常见的算法特征工程、调参数、优化我们应该做?学会分析问题,使用机器学习算法的目的,想要算法完成何种任务掌握算法基本思想,学会对问题用相应原创 2021-09-01 16:24:43 · 92 阅读 · 0 评论 -
1.4 机器学习开发流程
流程图原创 2021-09-01 15:01:44 · 98 阅读 · 0 评论 -
1.3 机器学习算法分类
文章目录1.3 机器学习算法分类1.3.1总结1.3.2 分类练习1.3.3 机器学习算法分类监督学习(supervised learning)(预测)无监督学习(unsupervised learning)1.3 机器学习算法分类1.3.1总结监督学习(有目标值)分类问题(目标值为类别)eg:猫狗问题特征值:猫/狗图片 ;目标值:猫/狗-类别回归问题(目标值为连续性数据)eg:房屋价格问题特征值:房屋的各个属性 ;目标值:房屋价格–连续性数据无监督学习(无目标值)特征值:人物原创 2021-09-01 13:34:30 · 128 阅读 · 0 评论 -
1.2 什么是机器学习
文章目录1.2 什么是机器学习1.2.1 定义1.2.2 解释1.2.3 数据集构成1.2 什么是机器学习1.2.1 定义机器学习是从数据中自动分析获得模型,并利用模型对位置数据进行预测1.2.2 解释我们人从大量的日常经验中归纳规律,当面临新的问题的时候,就可以利用以往总结的规律去分析现实状况,采取最佳策略从数据(从大量猫狗图片)中自动分析获得模型(辨别猫和狗的规律),从而使机器拥有识别猫和狗的能力从数据(房屋的各种信息)中自动分析获得模型(判断房屋价格的规律),从而使机器拥有预测房屋价原创 2021-09-01 13:08:48 · 132 阅读 · 0 评论 -
1.1 人工智能概述
文章目录1.1人工智能概述1.1.1 机器学习与人工智能、深度学习机器学习和人工智能、深度学的关系达特茅斯会议--人工智能的起点1.1.2机器学习、深度学习的应用场景1.1.3 人工智能阶段安排1.1人工智能概述1.1.1 机器学习与人工智能、深度学习机器学习和人工智能、深度学的关系机器学习是人工智能的一个实现途径深度学习是机器学习的一个方法(人工神经网络)发展而来达特茅斯会议–人工智能的起点1956年8月,在美国汉诺斯小镇宁静的达特茅斯学院中,约翰·麦卡锡马文·闵斯基(人工智能与认原创 2021-09-01 12:39:53 · 146 阅读 · 0 评论