![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
墨小青的程序园
这个作者很懒,什么都没留下…
展开
-
L1,L2正则化为什么能解决过拟合
转自:https://www.cnblogs.com/zongfa/p/9774315.html 避免过拟合的方法有很多:early stopping、数据集扩增(Data augmentation)、正则化(Regularization)包括L1、L2(L2 regularization也叫weight decay),dropout。 L1正则化的解具有稀疏性,可用于特征选择。L2正则化的解都比较小,抗扰动能力强。在求解过程中,L2通常倾向让权值尽可能小,最后构造一个所...转载 2020-07-17 19:52:29 · 1412 阅读 · 0 评论 -
破解 语序点选验证码
转自:https://blog.csdn.net/diegen8187/article/details/85265113设计思路前言国家企业信用信息公示系统中的验证码是按语序点击汉字,如下图所示:即,如果依次点击:‘无’,‘意’,‘中’,‘发’,‘现’,就会通过验证。本项目的破解思路主要分为以下步骤:使用目标探测网络YOLOV2进行汉...转载 2020-03-17 19:19:47 · 5571 阅读 · 2 评论 -
吴恩达深度学习笔记-卷积神经网络
04.卷积神经网络第一周 卷积神经网络1.1 计算机视觉1.2 边缘检测示例垂直边缘检测vertical1.3 更多边缘检测内容边缘过渡水平边缘检测horizontal1.4 padding问题:卷积后图片缩小; 边缘信息丢失过滤器(卷积核)一般都为奇数(原因:1、可以对称填充...原创 2020-01-25 17:19:07 · 574 阅读 · 0 评论 -
what if 使用demo
假设工具从头开始 - 从CSV到经过培训的二进制分类模型到假设工具使用这个笔记本显示了从CSV加载数据集的过程,训练一个非常简单的分类器,预测其中一列,然后使用假设工具(WIT)分析训练数据集和训练数据model。这个笔记本使用了UCI Census数据集和学习问题,详情请参阅https://archive.ics.uci.edu/ml/datasets/census+income,...翻译 2018-12-04 19:37:57 · 538 阅读 · 1 评论 -
CNN(卷积层convolutional layer,激励层activating layer,池化层pooling,全连接层fully connected)
CNN产生的原因:当使用全连接的神经网络时,因为相邻两层之间的神经元都是有边相连的,当输入层的特征纬度非常高时(譬如图片),全连接网络需要被训练的参数就会非常多(参数太多,训练缓慢),CNN可以通过训练少量的参数从而进行特征提取。上图每一个边就代表一个需要训练的参数,可以直观的感受到需要训练的参数太多了。CNN的优点:1.相邻两层神经元部分相连。2.且同一层神经元的w(权重)和b(偏移)...转载 2018-11-22 11:46:23 · 1606 阅读 · 0 评论 -
MNIST数据集scikit-learn实践
原文:https://blog.csdn.net/zouxy09/article/details/48903179参考:https://www.cnblogs.com/upright/p/4191757.html一、概述 分类算法为例,大致可以分为线性和非线性两大派别。线性算法有著名的逻辑回归、朴素贝叶斯、最大熵等,非线性算法有随机森林、决策树、神经网络、核机器等等。线性算...转载 2018-11-05 17:44:35 · 2112 阅读 · 0 评论 -
机器学习十大算法
本文介绍了机器学习新手需要了解的 10 大算法,包括线性回归、Logistic 回归、朴素贝叶斯、K 近邻算法等。 在机器学习中,没有任何一种算法对所有问题都有效,在监督学习(即预测建模)中尤其如此。例如,你不能说神经网络总是比决策树好,反之亦然。有很多因素在起作用,例如数据集的大小和结构。因此,你应该针对具体问题尝试多种不同算法,并留出一个数据「测试集」来...转载 2018-10-09 14:53:33 · 385 阅读 · 0 评论 -
Scikit-learn函数总结
1 scikit-learn基础介绍1.1 估计器(Estimator)估计器,很多时候可以直接理解成分类器,主要包含两个函数:fit():训练算法,设置内部参数。接收训练集和类别两个参数。 predict():预测测试集类别,参数为测试集。 大多数scikit-learn估计器接收和输出的数据格式均为numpy数组或类似格式。1.2 转换器(Transform...转载 2018-09-21 18:23:12 · 1644 阅读 · 0 评论 -
文本分类/聚类
预处理删除标点符号python进行删除标点符号 text=u'''职位描述 乐视招聘android自动化测试工程师 岗位职责:1、负责android超级电视TV设备的自动化方案设计、自动化测试与工具开发; 2、根据项目特点研究稳定性测试技术,完成相关工具的开发以及测试; 技能要求:1、有移动终端自动化工具架构设计与开发者优先,熟悉Android自动化工具Uiautomator、Mo...转载 2018-10-11 11:29:19 · 2019 阅读 · 0 评论 -
Scikit-learn学习
python机器学习实践与kaggle实战Sklearn快速入门官方文档官方文档中文翻译sklearn 把所有机器学习的模式整合统一起来了,学会了一个模式就可以通吃其他不同类型的学习模式 步骤一般分为导入模块-创建数据-建立模型-训练-预测特征工程:在机器学习中,很重要的一步是对特征的处理,我们参考下文,先给出一些常用的特征处理方法在sklearn中的用法使用skl...转载 2018-09-20 16:07:14 · 345 阅读 · 0 评论 -
sklearn训练/测试数据集划分
原理介绍K折交叉验证:KFold,GroupKFold,StratifiedKFold,留一法:LeaveOneGroupOut,LeavePGroupsOut,LeaveOneOut,LeavePOut,随机划分法:ShuffleSplit,GroupShuffleSplit,StratifiedShuffleSplit, 代码实现流程...转载 2018-09-25 17:26:23 · 901 阅读 · 0 评论 -
cross validation:几种交叉验证方式的比较
模型评价的目的:通过模型评价,我们知道当前训练模型的好坏,泛化能力如何?从而知道是否可以应用在解决问题上,如果不行,那又是哪里出了问题?train_test_split在分类问题中,我们通常通过对训练集进行train_test_split,划分成train 和test 两部分,其中train用来训练模型,test用来评估模型,模型通过fit方法从train数据集中学习,然后调用scor...转载 2018-09-25 15:57:08 · 887 阅读 · 0 评论 -
python sklearn ︱分类效果评估——acc、recall、F1、ROC、回归、距离
一、acc、recall、F1、混淆矩阵、分类综合报告1、准确率第一种方式:accuracy_score# 准确率import numpy as npfrom sklearn.metrics import accuracy_scorey_pred = [0, 2, 1, 3,9,9,8,5,8]y_true = [0, 1, 2, 3,2,6,3,5,9]accuracy...转载 2018-08-02 16:43:54 · 1091 阅读 · 0 评论 -
xgboost入门与实战
https://blog.csdn.net/sb19931201/article/details/52557382转载 2018-06-01 17:26:15 · 270 阅读 · 0 评论 -
GB、GBDT、xgboost算法原理
GBDT和xgboost在竞赛和工业界使用都非常频繁,能有效的应用到分类、回归、排序问题,虽然使用起来不难,但是要能完整的理解还是有一点麻烦的。本文尝试一步一步梳理GB、GBDT、xgboost,它们之间有非常紧密的联系,GBDT是以决策树(CART)为基学习器的GB算法,xgboost扩展和改进了GDBT,xgboost算法更快,准确率也相对高一些。 1. Gradient boostin...转载 2018-06-01 17:23:57 · 2194 阅读 · 0 评论 -
Python机器学习库scikit-learn实践
转自:https://blog.csdn.net/zouxy09/article/details/48903179一、概述 机器学习算法在近几年大数据点燃的热火熏陶下已经变得被人所“熟知”,就算不懂得其中各算法理论,叫你喊上一两个著名算法的名字,你也能昂首挺胸脱口而出。当然了,算法之林虽大,但能者还是有限,能适应某些环境并取得较好效果的算法会脱颖而出,而表现平平者则被历史所淡忘。随着机...转载 2018-05-28 10:32:08 · 197 阅读 · 0 评论