2019年10月_是DRR啊

转载 L1与L2正则化

L1与L2正则化1. L2 正则化直观解释2. L1 正则化直观解释3. L1 与 L2 解的稀疏性4. 正则化参数 λ机器学习中，为了避免过拟合，最常用的一种方法是使用使用正则化，例如 L1 和 L2 正则化。1. L2 正则化直观解释L2 正则化公式非常简单，直接在原来的损失函数基础上加上权重参数的平方和：其中，Ein 是未包含正则化项的训练样本误差，λ 是正则化参数，可调。其物理意...

2019-10-08 16:56:31 402

欠拟合和过拟合的一般解决方法欠拟合与过拟合解决欠拟合(高偏差)的方法1.模型复杂化2.增加更多的特征，使输入数据具有更强的表达能力3.调整参数和超参数4.增加训练数据往往没有用5.降低正则化约束解决过拟合(高方差)的方法1.增加训练数据数2.使用正则化约束3.减少特征数4.调整参数和超参数5.降低模型的复杂度6.使用Dropout7.提前结束训练欠拟合与过拟合欠拟合是指模型在训练集、验证集和测...

2019-10-08 16:39:41 3478

原创机器学习-随机森林

机器学习-随机森林随机森林的定义随机森林的特点随机森林的生成1）每棵树随机抽取训练样本为什么要随机抽样训练集？为什么要有放回地抽样？2）每棵树随机选择训练特征3）每棵树都尽最大程度的生长，并且没有剪枝过程。随机森林分类效果（错误率）与两个因素有关：袋外错误率（oob error）随机森林的定义随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一...

2019-10-08 16:25:03 707

原创 python中的lambda函数与sorted函数

python中的lambda函数与sorted函数举例注意lambda常用使用场景1.函数式编程:2.Python中最常见的filter筛选、map小刷子、reduce合并，都可以用lambda表达式来生成sorted()函数排序1 简单列表(list)排序2 字典(dict)的键(key)排序3 字典(dict)的值(value)排序（使用lambda函数）4列表(list)内嵌套列表(list...

2019-10-06 22:52:21 5693 5

转载机器学习-逻辑回归

机器学习-逻辑回归分类和回归任务的区别逻辑回归不是回归用回归的方法解决分类问题判别函数选定阈值最大似然估计求解交叉熵损失函数总结分类和回归任务的区别我们可以按照任务的种类,将任务分为回归任务和分类任务.那这两者的区别是什么呢?按照较官方些的说法,输入变量与输出变量均为连续变量的预测问题是回归问题,输出变量为有限个离散变量的预测问题成为分类问题.通俗一点讲,我们要预测的结果是一个数,比如要通...

2019-10-06 22:28:16 406

原创机器学习-线性回归

机器学习-线性回归概述损失函数线性回归模型求解线性回归模型的特点概述线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，运用十分广泛。其表达形式为y = w’x+e，e为误差服从均值为0的正态分布。回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量...

2019-10-06 21:44:20 253

转载机器学习-朴素贝叶斯分类器

机器学习-朴素贝叶斯分类器概述定义贝叶斯方法朴素贝叶斯算法算法原理优缺点优点缺点应用文本分类其他概述朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯分类器(Naive Bayes Classifier 或 NBC)发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法简单。理论上，NBC模型与其他分类方法相...

2019-10-06 20:55:35 1526

转载常用的数据结构

常用的数据结构数据结构研究对象数据的逻辑结构数据的物理结构数据存储结构分类线性结构非线性结构常用的数据结构数组(Array)栈( Stack)队列(Queue)链表( Linked List)树( Tree)图(Graph)堆(Heap)散列表(Hash)数据结构数据结构(data structure)是带有结构特性的数据元素的集合，它研究的是数据的逻辑结构和数据的物理结构以及它们之间的相互关...

2019-10-06 19:30:34 814

转载物联网基础知识点

物联网基础知识点什么是物联网？特征关键技术射频识别技术传感网M2M系统框架云计算应用挑战技术标准的统一与协调管理平台问题成本问题安全性问题什么是物联网？物联网（The Internet of Things，简称IOT）是指通过各种信息传感器、射频识别技术、全球定位系统、红外感应器、激光扫描器等各种装置与技术，实时采集任何需要监控、连接、互动的物体或过程，采集其声、光、热、电、力学、化学、生...

2019-10-06 17:43:42 7054

原创物联网协议之：MQTT协议

物联网协议之：MQTT协议简介工作原理：MQTT消息的QOSMQTT的消息类型MQTT控制报文格式简介MQTT协议（Message Queuing Telemetry Transport），遥信消息队列传输，是IBM公司于1999年提出的，现在最新版本是3.1.1。MQTT是一个基于TCP的发布订阅协议，设计的初始目的是为了极有限的内存设备和网络带宽很低的网络不可靠的通信，非常适合物联网通信。...

2019-10-06 17:09:40 683

原创计算机网络基础面试题

计算机网络基础面试题1.OSI七层模型2.TCP/IP协议模型以及各层协议3.DNS解析过程4.TCP与UDP的区别5.TCP三次握手与四次挥手三次握手四次挥手6.对称加密与非对称加密7.HTTP协议之响应8、Http和Https的区别1.OSI七层模型OSI（Open System Interconnection）应用层：网络服务与最终用户的一个接口。表示层：数据的表示、安全、压缩。（在...

2019-10-06 16:33:41 1468

原创 Python面试题

Python面试题Q.1. Python 的特点和优点Q.2. 列表和元祖的区别Q.3. 解释 Python 中的三元表达式Q.4. Python 中如何实现多线程Q.5. 继承Q.6. Python 管理内存Q.7. 当退出 Python 时是否释放所有内存分配Q.8. 什么是 Python 字典？Q.9. 负索引Q.10. 如何随机打乱列表中元素，要求不引用额外的内存空间Q.11. 解释 Py...

2019-10-06 12:50:11 709

原创机器学习-支持向量机（SVM）

机器学习-支持向量机（SVM）概述理论线性分类损失函数核方法标准算法线性SVM（linear SVM）1. 硬边距（hard margin）2. 软边距（soft margin）非线性SVM（nonlinear SVM）数值求解1. 内点法（Interior Point Method, IPM）2. 序列最小优化（Sequential Minimal Optimization, SMO）3. 随机...

2019-10-05 23:29:38 2019

原创机器学习-决策树（ID3、C4.5）

机器学习-决策树（ID3、C4.5）概述画法剪枝决策树的优缺点ID3算法纯度信息熵信息增益C4.5 算法信息增益率悲观剪枝离散化处理连续属性处理缺失值小结概述决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，...

2019-10-05 22:25:40 1142

原创面试准备（知识点总结等）【中移物联网-算法岗】

为面试做准备【中移物联网-算法岗】自我介绍基本信息本科经历硕士研究方向、获奖、项目、论文自我评价：专业技能、具备能力项目介绍ETC数据分析裂缝检测数据库数据库面试题https://blog.csdn.net/qq_25041667/article/details/102003330数据预处理几种聚类算法原理及比较几种简单机器学习算法原理聚类算法评价指标FOA...

2019-10-05 17:39:00 1635 1

原创数据预处理（数据审核、缺失值处理、标准化正则化、降维等）

数据预处理（数据审核、缺失值处理、标准化正则化、降维等）概述预处理内容数据审核数据筛选数据排序数据方法去除唯一属性处理缺失值数据标准化数据正则化特征选择（降维）概述数据预处理（data pre-processing）是指在主要的处理以前对数据进行的一些处理。现实世界中数据大体上都是不完整，不一致的脏数据，无法直接进行数据挖掘，或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。数...

2019-10-03 22:24:33 6022

原创机器学习-降维（SVD、PCA）

机器学习-降维（SVD、PCA）奇异值分解（SVD）主成分分析（PCA）降维是机器学习中很重要的一种思想。在机器学习中经常会碰到一些高维的数据集，而在高维数据情形下会出现数据样本稀疏，距离计算等困难，这类问题是所有机器学习方法共同面临的严重问题，称之为“维度灾难”。另外在高维特征中容易出现特征之间的线性相关，这也就意味着有的特征是冗余存在的。基于这些问题，降维思想就出现了。奇异值分解（SVD）...

2019-10-03 22:03:00 487

原创数据库面试题（基本概念、索引、事务）

一、基本概念1.主键、外键主键数据库表中对储存数据对象予以唯一和完整标识的数据列或属性的组合。一个数据列只能有一个主键，且主键的取值不能缺失，即不能为空值（Null）。外键在一个表中存在的另一个表的主键称此表的外键。2.触发器触发器是保证数据完整性的一种方法，它是与表事件相关的特殊的存储过程，它的执行不是由程序调用，也不是手工启动，而是由事件来触发，比如当对一个表进行操作（...

2019-10-03 18:20:18 786

qq_25041667的博客