机器学习常用算法及原理
梓涵学姐
爱笑的女孩运气都不会太差
展开
-
简历中的各个项目整理
文本抄袭自动检测分析 1)定义可能抄袭的文章来源 2)与原文对比定位抄袭的地方 原始数据:sqlResult.csv,共计89611篇 字段包括:id(文章id), author作者, source数据来源, content内容, feature, title(标题), url(文章网址) Step1,数据加载 加载sqlResult.csv及停用词chinese_stopwords.txt Step2,数据预处理 1)数据清洗,针对content字段为空的情况,进行dropna 2)分词原创 2020-07-23 14:59:43 · 397 阅读 · 0 评论 -
动手学深度学习——task3过拟合、欠拟合以及解决方案、梯度消失和梯度爆炸
过拟合和欠拟合的概念 过拟合:模型训练误差远小于在测试数据集上的误差,也就是说数据在训练时模型的预测效果好,但是在测试的数据上(要预测的新数据)不能很好的进行预测。 欠拟合:模型无法得到较低的训练误差,也就是说,在训练数据的过程中,就不能很好的对数据进行预测。 主要因素模型复杂度和训练数据集大小 模型复杂度 为了解释模型复杂,以简单多项式函数拟合为例。给定一个由标量数据特征 x 和对应的标量标签 ...原创 2020-02-18 11:28:48 · 285 阅读 · 0 评论 -
动手学深度学习——线性回归
一、线性回归 线性回归属于监督学习中比较经典的算法之一(判别模型)。线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。 1、线性回归模型 2、损失函数 均方误差最小化目标函数: 3、优化函数 - 梯度更新方式 二、线性回归模型的代码实现 #导入所需要的包 import...原创 2020-02-14 21:56:51 · 220 阅读 · 0 评论