- 博客(9)
- 资源 (12)
- 收藏
- 关注
原创 第一章 数据挖掘绪论
数据挖掘,又称数据库中的知识发现(KDD),是指从大型数据库或数据仓库中提取出隐含的、未知的、非平凡的及有潜在应用价值的信息或模式的过程。这个过程通常涉及数据清洗、数据集成、数据选择、数据变换、数据挖掘以及模式评估等多个步骤。数据挖掘的技术和方法涵盖了统计学、机器学习、数据库技术、可视化技术等多个领域。
2024-07-13 17:00:24 606
原创 机器学习完整路径
全书共18 章,主题包括监督学习、回归的线性方法、分类的线性方法、基展开和正则化、核光滑方法、模型评估和选择、模型推断和平均、加性模型、树和相关方法、Boosting 和加性树、神经网络、支持向量机和柔性判断、原型方法和最近邻、非监督学习、随机森林、集成学习、无向图模型和高维问题等。本书由麦络,爱丁堡大学信息学院助理教授,博士生导师和董豪,北京大学计算机学院助理教授,博士生导师合著,图书在github上开源,同时收到了来自学界和产业界的各位优秀教授、研究者、和从业者的诸多写作建议。
2024-07-12 17:48:23 1652
转载 HMM(隐马尔可夫模型)
比如,我有一个被赌场动过手脚的六面骰子,掷出来是1的概率更大,是1/2,掷出来是2,3,4,5,6的概率是1/10。然后我们掷骰子,得到一个数字,1,2,3,4,5,6,7,8中的一个。比如说你怀疑自己的六面骰被赌场动过手脚了,有可能被换成另一种六面骰,这种六面骰掷出来是1的概率更大,是1/2,掷出来是2,3,4,5,6的概率是1/10。同样,简单而暴力的方法就是把穷举所有的骰子序列,还是计算每个骰子序列对应的概率,但是这回,我们不挑最大值了,而是把所有算出来的概率相加,得到的总概率就是我们要求的结果。
2023-09-20 22:28:05 169 2
原创 深度学习的优化方法
梯度下降法简单来说就是⼀种寻找使损失函数最⼩化的⽅法。⼤家在机器学习阶段已经学过该算法,所以我们在这⾥就简单的回顾下,从数学上的⻆度来看,梯度的⽅向是函数增⻓速度最快的⽅向,那么梯度的反⽅向就是函数减少最快的⽅向,所以有:其中,η是学习率,如果学习率太⼩,那么每次训练之后得到的效果都太⼩,增⼤训练的时间成本。如果,学习率太⼤,那就有可能直接跳过最优解,进⼊⽆限的训练中。解决的⽅法就是,学习率也需要随着训练的进⾏⽽变化。
2023-07-27 20:09:01 443 1
原创 神经网络损失函数
1、分类任务在深度学习中损失函数是⽤来衡量模型参数的质量的函数衡量的⽅式是⽐较⽹络输出和真实输出的差异。1、分类任务1.1 多分类任务在多分类任务通常使⽤softmax将logits转换为概率的形式,所以多分类的交叉熵损失也叫做softmax损失,它的计算⽅法是:其中,y是样本x属于某⼀个类别的真实概率,⽽f(x)是样本属于某⼀类别的预测分数,S是softmax函数,L⽤来衡量p,q之间差异性的损失结果。
2023-07-26 16:35:05 83 1
原创 协同过滤推荐算法
#!/usr/bin/python3# -*- coding: utf-8 -*-from numpy import *import timefrom texttable import Texttableclass CF: def __init__(self, movies, ratings, k=5, n=10): self.movies = movies self.ratings = ratings # 邻居个数 self.k = k # 推荐个数.
2020-05-22 17:39:27 244
原创 一、统计学习概论
1.1 统计学习维基百科:机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习...
2019-12-29 15:54:54 452
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人