姜泽毓
码龄6年
关注
提问 私信
  • 博客:14,874
    社区:59
    动态:18
    14,951
    总访问量
  • 28
    原创
  • 726,348
    排名
  • 2
    粉丝
  • 0
    铁粉

个人简介:小白路过

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:内蒙古
  • 加入CSDN时间: 2018-11-17
博客简介:

16网工姜泽毓的博客

博客描述:
小白路过
查看详细资料
个人成就
  • 获得5次点赞
  • 内容获得5次评论
  • 获得10次收藏
创作历程
  • 19篇
    2020年
  • 9篇
    2019年
成就勋章
TA的专栏
  • 笔记
    1篇
  • 机器学习
    5篇
  • 分布---贝叶斯---信息熵
    1篇
  • 数据分析
    1篇
  • 135大作业
    1篇
  • GBDT
    1篇
  • MySQL
    3篇
  • 二分查找树---增/删/查
    1篇
  • 一条SQL语句执行慢的几种原因
    1篇
  • SQL
  • navicat连接MySQL报1251错误代码解决方案
    1篇
  • 满二叉树和完全二叉树
    1篇
  • 位运算
    1篇
  • 小结---带指针---解题思路---应用范围(规律)---什么类型--
    1篇
  • 小结---带指针
  • 小结
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

HarmonyOS开发者社区有奖征文来啦!

用文字记录下您与HarmonyOS的故事。参与活动,还有机会赢奖,快来加入我们吧!

0人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

数据离散化的优点

离散特征的增加和减少都很容易,易于模型的快速迭代稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰离散化后可以进行特征交叉,由M+N个变量变为M*N个变量,可以提升特征之间的关系特征离散化后,模型会更稳定,比如如果对用户年龄离散化,20-30作为一个区间,不会因为一个用户年龄长了一岁就变成一个完全不同的人。特征离散化以后,起到了简化了逻辑回.
原创
发布博客 2020.12.15 ·
962 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

总结至神经网络

机器学习三要素之间的关系模型机器学习的目的——模型(Model)机器学习训练的过程中所要学习的条件概率分布或者决策函数策略如何构造模型——策略(Strategy)就是使用一种什么样的评价度量模型训练过程中的学习好坏的方法,同时根据这个方法去实施的调整模型的参数,以期望训练的模型将来对未知的数据具有最好的预测准确度算法模型的实现——算法(Algorithm)是指模型的具体计算方法。它基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后考虑用什么样的计算方法去求解这个最优模型
原创
发布博客 2020.12.02 ·
209 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

交叉验证的方法汇总

交叉验证的方法留一验证解释:只从可用的数据集中保留一个数据点,并根据其余数据训练模型。此过程对每个数据点进行迭代,比如有n个数据点,就要重复交叉验证n次。例如下图,一共10个数据,就交叉验证十次图示如下:优点适合数据集量级较小因为利用了所有的数据点,因此偏差比较低缺点因为重复执行验证,执行时间比较长因为是数据点进行验证,如果数据点是离群值,那么模型的准确度就会大大受到影响K折交叉验证1.解释:进行多次train_test_split划分
原创
发布博客 2020.12.01 ·
1837 阅读 ·
1 点赞 ·
1 评论 ·
1 收藏

机器学习三要素 模型 策略 算法 之间的关系

机器学习三要素之间的关系模型机器学习的目的——模型(Model)机器学习训练的过程中所要学习的条件概率分布或者决策函数策略如何构造模型——策略(Strategy)就是使用一种什么样的评价度量模型训练过程中的学习好坏的方法,同时根据这个方法去实施的调整模型的参数,以期望训练的模型将来对未知的数据具有最好的预测准确度算法模型的实现——算法(Algorithm)是指模型的具体计算方法。它基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后考虑用什么样的计算方法去求解这个最优模型
原创
发布博客 2020.11.30 ·
1189 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

判别式和生成式模型异同点

生成式就是生成 (数据的分布) 的模型生成式求的是 (联合概率 即 P(X,Y) )直接对 联合分布概率< P(X,Y) > 进行建模常见生成式模型:隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM等关注数据是如何产生的,寻找的是数据分布模型判别式判别 (数据输出量) 的模型判别式求的是 (后验概率 即 P(Y|X) )直接对 条件概率< P(Y|X) > 进行建模常见判别模型:线性回归、决策树、支持向量机SVM、k近邻、神经网络等关注的数据的差异
原创
发布博客 2020.11.30 ·
238 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

过拟合出现的原因及解决方案

过拟合出现的原因及解决方案原因训练集的数量级和模型的复杂度不匹配 (训练集的数量级<模型的复杂度)训练集和测试集特征分布不一致训练集里的噪音数据干扰过大 (模型过分记住了噪音特征,反而忽略了真实的输入输出关系)构建特征时,构建了没有或者过多没有代表性的特征解决方案调小模型复杂度,使其适合自己的训练集 (缩小宽度 | 减小深度)增加训练集的数量参数太多,也会增加模型的复杂度,这里可以正则化,惩罚模型不要过度训练重新清洗数据,(例如:对缺失值 | 无效值) 等的处理
原创
发布博客 2020.11.30 ·
291 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

总结 分布 --- 贝叶斯 --- 信息熵

分布联合分布定义:2个随机变量联合表示起来称为联合概率举一个例子:这里有一些扑克牌,接下来我们来求一下联合分布这里的人头指的是:J,Q,K这里的数字指的是:A-9这里的红色指的是:红桃,方片这里的黑色指的是:梅花,黑桃联合分布也就是从2个方向描述比如上面的1/16,就是既是黑色又是人头的个数占扑克牌的总个数边缘分布还是上面的扑克牌,我们再来求一下边缘分布而边缘分布是从1个方向上进行描述比如9/16,就是红色占扑克牌总数的占比,不用管它是数字还是人头离散
原创
发布博客 2020.11.22 ·
1079 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

numpy和pandas

创建ndarraynp.arange(10)np.array(list)np.array(dict)np.zeros((行,列))np.zeros_like(arr_zeros)np.ones((行,列))np.ones_like(arr_ones)np.empty(20)np.random.randn(100)np.random.randint(start,end,数量).reshape(行,列) 随机种子: np.random.seed(0)np.random.random(
原创
发布博客 2020.11.02 ·
1375 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大作业

指针快慢指针顾名思义,它的核心思想是,有2个指针,一个走的快,一个走的慢,以此来解决问题例如:判断链表是否有环思路如下:首先定义2个指针,一个是快指针,一个是慢指针,快指针第一次指向第一个元素,慢指针第一次也指向第一个元素,快指针先去探索因为它叫快指针,所以要一次走两步,而慢指针呢,一次就走一步.我们要判断链表是否有环,有2种可能,一种就是有环,而另一种就是没环.做这类题目之前呢,要先把边界考虑好,如果本身传进来的就是个空链表,那我们是不是就不用判断啦,返回的结果就是没有环呗,如果链表就
原创
发布博客 2020.10.28 ·
189 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

GBDT算法原理---浅讲

1.引言个体学习器间存在强依赖关系、必须串行生成的序列化方法:Boosting(提升方法(Boosting),是一种可以用来减小监督式学习中偏差的机器学习算法。面对的问题是迈可·肯斯(Michael Kearns)提出的:一组“弱学习者”的集合能否生成一个“强学习者”?弱学习者一般是指一个分类器,它的结果只比随机分类好一点点;强学习者指分类器的结果非常接近真值)个体学习器间不存在强依赖关系、可同时生成的并行化方法:Bagging (引导聚集算法),又称装袋算法,是机器学习领域的一种团体学习算法。最初由L
原创
发布博客 2020.08.25 ·
470 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

count(*)和count(列名)的区别

count()—计数函数原表:MySQL示例一:SELECT count(A) as "count(列名)", count(*) as "count(*)"FROM `测试表count`执行结果如下:MySQL示例二:SELECT count(b) as "count(列名)", count(*) as "count(*)"FROM `测试表count`执行结果如下:总结:count(列名) 只计数值不为null的行数count(*) 计数的是整张表的行数
原创
发布博客 2020.07.13 ·
367 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MySQL-索引(二)

引言索引 :数据库中的索引,就好⽐⼀本书的⽬录,它可以帮我们快速进⾏特定 值的定位与查找,从⽽加快数据查询的效率。索引的种类:普通索引、唯⼀索引和主键索引按照物理实现⽅式,索引可以分为 2 种:聚集索引和⾮聚集索引。我们也把⾮聚集索引称为⼆级索引或者辅助索引在⼀张数据表中只能有 ⼀ 个主键索引,这是由主键索引的物理实现⽅式决定的,因为数据存储在⽂件中只能按照⼀种顺序 进⾏存储。但可以有 多个 普通索引或者 多个 唯⼀索引。聚集索引: 可以按照主键来排序存储数据,这样在查找⾏的时候⾮常有效。举个例⼦
原创
发布博客 2020.07.13 ·
165 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

MySQL 索引(一)

引言:数据库服务器有两种存储介质,分别为硬盘和内存。内存属于临时存储,容量有限, ⽽且当发⽣意外时(⽐如断电或者发⽣故障重启)会造成数据丢失;硬盘相当于永久 存储介质,这也是为什么我们需要把数据保存到硬盘上。虽然内存的读取速度很快,但我们还是需要将索引存放到硬盘上,这样的话,当我们 在硬盘上进⾏查询时,也就产⽣了硬盘的 I/O 操作。相⽐于内存的存取来说,硬盘的 I/O 存取消耗的时间要⾼很多。我们通过索引来查找某⾏数据的时候,需要计算产⽣ 的磁盘 I/O 次数,当磁盘 I/O 次数越多,所消耗的时间也
原创
发布博客 2020.07.13 ·
115 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

二分查找树的增,删,查

二分查找树pythonfrom pprint import pformatclass Node: def __init__(self, value, parent): self.value = value self.left = None self.right = None self.parent = parent def __repr__(self): if self.left is None an
原创
发布博客 2020.07.06 ·
153 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

一条sql语句执行的很慢都有哪些原因

一条sql语句执行慢的原因:索引:⾸先我们需要了解什么是索引(Index)。数据库中的索引,就好⽐⼀本书的⽬录,它可以帮我们快速进⾏特定 值的定位与查找,从⽽加快数据查询的效率。1.数据库一直很忙,更新又很频繁这个时候数据库在同步数据到磁盘的时候,就有可能导致我们的SQL语句执行的很慢了2.我们要执行的这条语句,刚好这条语句涉及到的表,别人在用,并且加锁了,我们拿不到锁,只能慢慢等待别人释放锁了。或者,表没有加锁,但要使用到的某个一行被加锁了3.没有索引或者是有索引而没使用4.(采样,由于统计的失
原创
发布博客 2020.07.06 ·
342 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

满二叉树和完全二叉树

满二叉树除最后一层无任何子节点外,每一层上的所有结点都有两个子结点的二叉树。国内教程定义:一个二叉树,如果每一个层的结点数都达到最大值,则这个二叉树就是满二叉树。也就是说,如果一个二叉树的层数为K,且结点总数是(2^k) -1 ,则它就是满二叉树。大意为:如果一棵二叉树的结点要么是叶子结点,要么它有两个子结点,这样的树就是满二叉树完全二叉树完全二叉树是由满二叉树而引出来的,若设二叉树的深度为h,除第 h 层外,其它各层 (1~h-1) 的结点数都达到最大个数(即1~h-1层为一个满二叉树),第
原创
发布博客 2020.06.30 ·
217 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

navicat 连接 MySQL报错1251错误代码

1、本地连接本地数据库无法连接,报错1251错误代码。第一步:打开Command Line Client第二步:输入 mysql密码回车 就是安装mysql时设置的密码只输入密码就行不加分号第三步:输入ALTER USER 'root'@'localhost' IDENTIFIED WITH mysql_native_password BY 'mysql的密码';回车 别漏了后面有个分号 mysql的密码是安装mysql时设置的密码第四步:输入FLUSH PRIVILEGE
原创
发布博客 2020.06.30 ·
2244 阅读 ·
4 点赞 ·
2 评论 ·
3 收藏

位运算

1.# 191.位1的个数—汉明重量题目:编写一个函数,输入是一个无符号整数,返回其二进制表达式中数字位数为 ‘1’ 的个数(也被称为汉明重量)。示例1:输入:00000000000000000000000000001011输出:3解释:输入的二进制串00000000000000000000000000001011中,共有三位为’1’。示例2:输入:00000000000000000000000010000000输出:1解释:输入的二进制串000000000000000000000
原创
发布博客 2020.06.30 ·
209 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

指针

1.最接近的三数之和python:from typing import Listclass Solution: def threeSumClosest(self, nums: List[int], target: int) -> int: nums.sort() min = abs(nums[0] + nums[1] + nums[2] - target) res = nums[0] + nums[1] + nums[2]
原创
发布博客 2020.06.28 ·
200 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据

大数据大数据:大数据通俗的解释就是海量的数据,顾名思义,大就是多、广的意思,而数据就是信息、技术以及数据资料。大数据的4V特征:1、快速化:是指互联网连接设备数量的增长为我们带来更高速数据的处理。2、多样化:是指数据的来源多,格式也多,来源具体到生活中包括搜索引擎的信息来源、社交网络消息来源、通话记录等都是大数据消息的来源。3、大量化4、价值高应用领域:医疗卫生、商业分析、国家安...
原创
发布博客 2019.12.02 ·
270 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多