姜泽毓-CSDN博客

原创数据离散化的优点

离散特征的增加和减少都很容易，易于模型的快速迭代稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰离散化后可以进行特征交叉，由M+N个变量变为M*N个变量，可以提升特征之间的关系特征离散化后，模型会更稳定，比如如果对用户年龄离散化，20-30作为一个区间，不会因为一个用户年龄长了一岁就变成一个完全不同的人。特征离散化以后，起到了简化了逻辑回.

2020-12-15 22:24:45 943

原创总结至神经网络

机器学习三要素之间的关系模型机器学习的目的——模型（Model）机器学习训练的过程中所要学习的条件概率分布或者决策函数策略如何构造模型——策略（Strategy）就是使用一种什么样的评价度量模型训练过程中的学习好坏的方法，同时根据这个方法去实施的调整模型的参数，以期望训练的模型将来对未知的数据具有最好的预测准确度算法模型的实现——算法（Algorithm）是指模型的具体计算方法。它基于训练数据集，根据学习策略，从假设空间中选择最优模型，最后考虑用什么样的计算方法去求解这个最优模型

2020-12-02 23:03:05 195

原创交叉验证的方法汇总

交叉验证的方法留一验证解释:只从可用的数据集中保留一个数据点，并根据其余数据训练模型。此过程对每个数据点进行迭代，比如有n个数据点，就要重复交叉验证n次。例如下图，一共10个数据，就交叉验证十次图示如下:优点适合数据集量级较小因为利用了所有的数据点,因此偏差比较低缺点因为重复执行验证,执行时间比较长因为是数据点进行验证,如果数据点是离群值,那么模型的准确度就会大大受到影响K折交叉验证1.解释:进行多次train_test_split划分

2020-12-01 23:25:29 1810 1

原创机器学习三要素模型策略算法之间的关系

机器学习三要素之间的关系模型机器学习的目的——模型（Model）机器学习训练的过程中所要学习的条件概率分布或者决策函数策略如何构造模型——策略（Strategy）就是使用一种什么样的评价度量模型训练过程中的学习好坏的方法，同时根据这个方法去实施的调整模型的参数，以期望训练的模型将来对未知的数据具有最好的预测准确度算法模型的实现——算法（Algorithm）是指模型的具体计算方法。它基于训练数据集，根据学习策略，从假设空间中选择最优模型，最后考虑用什么样的计算方法去求解这个最优模型

2020-11-30 21:45:18 1144

原创判别式和生成式模型异同点

生成式就是生成 (数据的分布) 的模型生成式求的是 (联合概率即 P(X,Y) )直接对联合分布概率< P(X,Y) > 进行建模常见生成式模型：隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM等关注数据是如何产生的，寻找的是数据分布模型判别式判别 (数据输出量) 的模型判别式求的是 (后验概率即 P(Y|X) )直接对条件概率< P(Y|X) > 进行建模常见判别模型：线性回归、决策树、支持向量机SVM、k近邻、神经网络等关注的数据的差异

2020-11-30 20:48:28 226

原创过拟合出现的原因及解决方案

过拟合出现的原因及解决方案原因训练集的数量级和模型的复杂度不匹配 (训练集的数量级<模型的复杂度)训练集和测试集特征分布不一致训练集里的噪音数据干扰过大 (模型过分记住了噪音特征,反而忽略了真实的输入输出关系)构建特征时,构建了没有或者过多没有代表性的特征解决方案调小模型复杂度,使其适合自己的训练集 (缩小宽度 | 减小深度)增加训练集的数量参数太多,也会增加模型的复杂度,这里可以正则化,惩罚模型不要过度训练重新清洗数据,(例如:对缺失值 | 无效值) 等的处理

2020-11-30 18:54:29 283

原创总结分布 --- 贝叶斯 --- 信息熵

分布联合分布定义:2个随机变量联合表示起来称为联合概率举一个例子:这里有一些扑克牌,接下来我们来求一下联合分布这里的人头指的是:J,Q,K这里的数字指的是:A-9这里的红色指的是:红桃,方片这里的黑色指的是:梅花,黑桃联合分布也就是从2个方向描述比如上面的1/16,就是既是黑色又是人头的个数占扑克牌的总个数边缘分布还是上面的扑克牌,我们再来求一下边缘分布而边缘分布是从1个方向上进行描述比如9/16,就是红色占扑克牌总数的占比,不用管它是数字还是人头离散

2020-11-22 20:57:19 1049 1

原创 numpy和pandas

创建ndarraynp.arange(10)np.array(list)np.array(dict)np.zeros((行,列))np.zeros_like(arr_zeros)np.ones((行,列))np.ones_like(arr_ones)np.empty(20)np.random.randn(100)np.random.randint(start,end,数量).reshape(行,列) 随机种子: np.random.seed(0)np.random.random(

2020-11-02 00:56:36 1319

原创大作业

指针快慢指针顾名思义,它的核心思想是,有2个指针,一个走的快,一个走的慢,以此来解决问题例如:判断链表是否有环思路如下:首先定义2个指针,一个是快指针,一个是慢指针,快指针第一次指向第一个元素,慢指针第一次也指向第一个元素,快指针先去探索因为它叫快指针,所以要一次走两步,而慢指针呢,一次就走一步.我们要判断链表是否有环,有2种可能,一种就是有环,而另一种就是没环.做这类题目之前呢,要先把边界考虑好,如果本身传进来的就是个空链表,那我们是不是就不用判断啦,返回的结果就是没有环呗,如果链表就

2020-10-28 21:14:28 164

原创 GBDT算法原理---浅讲

1.引言个体学习器间存在强依赖关系、必须串行生成的序列化方法:Boosting(提升方法（Boosting），是一种可以用来减小监督式学习中偏差的机器学习算法。面对的问题是迈可·肯斯（Michael Kearns）提出的：一组“弱学习者”的集合能否生成一个“强学习者”？弱学习者一般是指一个分类器，它的结果只比随机分类好一点点；强学习者指分类器的结果非常接近真值)个体学习器间不存在强依赖关系、可同时生成的并行化方法:Bagging (引导聚集算法），又称装袋算法，是机器学习领域的一种团体学习算法。最初由L

2020-08-25 18:33:42 457

原创 count(*)和count(列名)的区别

count()—计数函数原表:MySQL示例一:SELECT count(A) as "count(列名)", count(*) as "count(*)"FROM `测试表count`执行结果如下:MySQL示例二:SELECT count(b) as "count(列名)", count(*) as "count(*)"FROM `测试表count`执行结果如下:总结:count(列名) 只计数值不为null的行数count(*) 计数的是整张表的行数

2020-07-13 21:42:31 356

原创 MySQL-索引(二)

引言索引 :数据库中的索引，就好⽐⼀本书的⽬录，它可以帮我们快速进⾏特定值的定位与查找，从⽽加快数据查询的效率。索引的种类:普通索引、唯⼀索引和主键索引按照物理实现⽅式，索引可以分为 2 种：聚集索引和⾮聚集索引。我们也把⾮聚集索引称为⼆级索引或者辅助索引在⼀张数据表中只能有⼀个主键索引，这是由主键索引的物理实现⽅式决定的，因为数据存储在⽂件中只能按照⼀种顺序进⾏存储。但可以有多个普通索引或者多个唯⼀索引。聚集索引: 可以按照主键来排序存储数据，这样在查找⾏的时候⾮常有效。举个例⼦

2020-07-13 02:07:14 153 1

原创 MySQL 索引(一)

引言:数据库服务器有两种存储介质，分别为硬盘和内存。内存属于临时存储，容量有限，⽽且当发⽣意外时（⽐如断电或者发⽣故障重启）会造成数据丢失；硬盘相当于永久存储介质，这也是为什么我们需要把数据保存到硬盘上。虽然内存的读取速度很快，但我们还是需要将索引存放到硬盘上，这样的话，当我们在硬盘上进⾏查询时，也就产⽣了硬盘的 I/O 操作。相⽐于内存的存取来说，硬盘的 I/O 存取消耗的时间要⾼很多。我们通过索引来查找某⾏数据的时候，需要计算产⽣的磁盘 I/O 次数，当磁盘 I/O 次数越多，所消耗的时间也

2020-07-13 01:51:45 109

原创二分查找树的增,删,查

二分查找树pythonfrom pprint import pformatclass Node: def __init__(self, value, parent): self.value = value self.left = None self.right = None self.parent = parent def __repr__(self): if self.left is None an

2020-07-06 01:55:17 144

原创一条sql语句执行的很慢都有哪些原因

一条sql语句执行慢的原因:索引:⾸先我们需要了解什么是索引（Index）。数据库中的索引，就好⽐⼀本书的⽬录，它可以帮我们快速进⾏特定值的定位与查找，从⽽加快数据查询的效率。1.数据库一直很忙，更新又很频繁这个时候数据库在同步数据到磁盘的时候，就有可能导致我们的SQL语句执行的很慢了2.我们要执行的这条语句，刚好这条语句涉及到的表，别人在用，并且加锁了，我们拿不到锁，只能慢慢等待别人释放锁了。或者，表没有加锁，但要使用到的某个一行被加锁了3.没有索引或者是有索引而没使用4.(采样,由于统计的失

2020-07-06 00:57:36 327

原创满二叉树和完全二叉树

满二叉树除最后一层无任何子节点外，每一层上的所有结点都有两个子结点的二叉树。国内教程定义：一个二叉树，如果每一个层的结点数都达到最大值，则这个二叉树就是满二叉树。也就是说，如果一个二叉树的层数为K，且结点总数是(2^k) -1 ，则它就是满二叉树。大意为：如果一棵二叉树的结点要么是叶子结点，要么它有两个子结点，这样的树就是满二叉树完全二叉树完全二叉树是由满二叉树而引出来的，若设二叉树的深度为h，除第 h 层外，其它各层 (1～h-1) 的结点数都达到最大个数(即1~h-1层为一个满二叉树)，第

2020-06-30 23:50:48 208

原创 navicat 连接 MySQL报错1251错误代码

1、本地连接本地数据库无法连接，报错1251错误代码。第一步：打开Command Line Client第二步：输入 mysql密码回车就是安装mysql时设置的密码只输入密码就行不加分号第三步：输入ALTER USER 'root'@'localhost' IDENTIFIED WITH mysql_native_password BY 'mysql的密码';回车别漏了后面有个分号 mysql的密码是安装mysql时设置的密码第四步：输入FLUSH PRIVILEGE

2020-06-30 23:31:03 2135 2

原创位运算

1.# 191.位1的个数—汉明重量题目:编写一个函数，输入是一个无符号整数，返回其二进制表达式中数字位数为 ‘1’ 的个数（也被称为汉明重量）。示例1：输入：00000000000000000000000000001011输出：3解释：输入的二进制串00000000000000000000000000001011中，共有三位为’1’。示例2：输入：00000000000000000000000010000000输出：1解释：输入的二进制串000000000000000000000

2020-06-30 02:22:49 182

原创指针

1.最接近的三数之和python:from typing import Listclass Solution: def threeSumClosest(self, nums: List[int], target: int) -> int: nums.sort() min = abs(nums[0] + nums[1] + nums[2] - target) res = nums[0] + nums[1] + nums[2]

2020-06-28 09:21:37 194

原创大数据

大数据大数据：大数据通俗的解释就是海量的数据，顾名思义，大就是多、广的意思，而数据就是信息、技术以及数据资料。大数据的4V特征：1、快速化：是指互联网连接设备数量的增长为我们带来更高速数据的处理。2、多样化：是指数据的来源多，格式也多，来源具体到生活中包括搜索引擎的信息来源、社交网络消息来源、通话记录等都是大数据消息的来源。3、大量化4、价值高应用领域：医疗卫生、商业分析、国家安...

2019-12-02 19:31:47 255

原创云存储

云存储技术云存储：通俗的讲就是把文件存储到多个机器中，集成多种技术完成这个过程。1、控制服务器技术:利用算法清晰定位文件存储在哪个服务器；2、文件分布技术：一般是通过在物理主机上加一层逻辑主机，即虚拟主机，使得文件块分布更加均匀；3、分块技术：将大文件分块利用哈希算法（存储到不同位置，解决大文件存储问题；4、文件重删技术：避免文件重复存储；6、文件备份技术：将文件复制存储到其...

2019-12-02 19:03:39 240

原创云计算

云计算云计算：是分布式计算的一种，指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序，然后，通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。云计算早期，简单的说，就是简单的分布式计算，解决任务分发，并进行计算结果的合并。因而，云计算又称为网格计算。通过这项技术，可以在很短的时间内（几秒钟）完成对数以万计的数据的处理。从而达到强大的网络服务。现阶段所说的云服...

2019-12-02 18:41:53 1274

原创 P2P

P2P与CS的区别p2p：以对等方式进行通信，并不区分客户端和服务端，而是平等关系进行通信。在对等方式下，可以把每个相连的主机当成既是主机又是客户，可以互相下载对方的共享文件。不如迅雷下载就是典型的p2p通信方式。c/s：客户端-服务器方式通信。主机A如果运行客户端程序。而主机B运行服务端程序，客户A向服务端B发送请求服务，服务端B向客户端A接收服务，这种情况下，就是以CS方式通信。这里所...

2019-12-02 18:11:59 456

原创 HTTP

HTTP请求消息结构：请求行，消息头，实体内容。响应消息结构：状态行，消息头，实体内容。响应状态码200(正常）401（未授权）404（找不到网页）500（内部服务器错误）session和cookie的区别：1、cookie数据存放在客户浏览器上session数据放在服务器上2、cookie不是很安全，别人可以分析存放在本地的cookie并进行cookie欺骗，考虑到安...

2019-12-02 17:40:32 153

原创分布式计算范型

PTP范型：源于P2P网络（又称对等计算机网络）简称P2P范型。应用：文件共享、搜索引擎、直播、分布式计算协同工作。云计算按服务对象分为：公有云、私有云、混合云。按服务类型分为：IaaS、PaaS、SaaS。IaaS是基础设施层：相当服务器，计算机裸机（强）PaaS是应用平台层：相当装了操作系统（中）SaaS是应用软件层：相当安装软件（弱）IaaS：虚拟，硬件的整合。PaaS：基...

2019-12-02 17:13:23 145

原创分布式计算

分布式计算分布式计算是一门计算机科学，主要研究对象是分布式系统。分布式系统是建立在网络之上的软件系统。网络和分布式系统之间的区别更多的在于高层软件（特别是操作系统），而不是硬件。在一个分布式系统中，一组独立的计算机展现给用户的是一个统一的整体，就好像是一个系统似的。系统拥有多种通用的物理和逻辑资源，可以动态的分配任务，分散的物理和逻辑资源通过计算机网络实现信息交换。分布式计算通俗地说就是将...

2019-12-02 16:52:10 132

原创测试

大数据源是什么呢，云计算源是什么呢，大数据与云计算是什么关系呢？

2019-11-26 22:14:29 84

原创大数据与云计算