白水成泉-CSDN博客

原创强化学习第一天基本概念

MDP：马尔可夫决策过程Random Variable：随机变量stochastic Process：随机过程 St t从1到无穷Markov Progress：马尔可夫过程具有马尔可夫性质的随机过程state space Model：状态空间模型马尔科夫链+状态观测对象Markov Reward Process：马尔科夫链+奖励函数MarKov Decision Process：马尔科夫链+奖励函数+ActionS：state setA：Action setR：Reward set

2021-05-27 21:22:16 219

原创 B站学习笔记

张量（tensor）0维张量/标量标量是一个数字1维张量/向量 1维张量称为“向量”。2维张量 2维张量称为矩阵3维张量公用数据存储在张量时间序列数据股价文本数据彩色图片(RGB)张量=容器优化方法梯度下降挑选一个初始值W0，重复迭代更新W0学习率：步长的超参数沿梯度方向将增加损失函数值学习率不能选太小(尽量少计算梯度)，也不能选太大在整个训练集上算梯度太贵，随机采样b个样本i1,i2,…,ib来近似损失b是批量大小，另一个重要的超参数，批量大小不能太小也不能太大梯

2021-05-17 17:12:15 235

原创数据预处理

数据可能存在的问题在实际业务处理中，数据通常是脏数据。所谓的脏，指数据可能存在以下几种问题（主要问题）:数据缺失（Incomplete）是属性值为空的情况。如 Occupancy = “ ” 数据噪声（Noisy）是数据值不合常理的情况。如 Salary = “-100” 数据不一致（Inconsistent）是数据前后存在矛盾的情况。如 Age = “42” vs. Birthday = “01/09/1985” 数据冗余（Redundant）是数据量或者属性数目超出数据分析需要的

2021-04-15 17:07:53 1264

原创高斯混合聚类

高斯混合聚类将高斯分布、贝叶斯公式、极大似然法（EM）估计的思路混合在这一种方法中。高斯混合聚类是从概率的角度对样本进行聚类的，而且这个概率是连续概率。基础概念先验概率：指根据以往经验和分析得到的概率。类条件概率：指已知一个条件下，结果发生的概率。后验概率：判断结果的发生是由哪个原因引起的概率。一元高斯函数：多元高斯分布：对n维样本空间 X中的随机向量x，若x服从高斯分布，其概率密度函数为:上面的一元正态公式其实就是当n = 1 的时候的特殊化。...

2020-11-28 15:53:31 2337

原创《自然语言处理——冯志伟》学习记录(一)

A. M. Turning算法计算模型的研究N. Chomsky形式语言理论的研究C. E. Shannon概率和信息论模型的研究结构化数据、非结构化数据正则表达式有限自动机Markov链:随机过程有两层含义：1.它是一个时间上的函数，随着时间的改变而改变。2.每个时刻的函数值是不同的，是随机的，也就是说，每一时刻上的函数值按照一定的概率分布。语言的使用被当作一个随机过程，在这个随机过程中，所出现的语言符号是随机试验的结局，语言就是一系列具有不同随机试验结局的链.

2020-11-24 23:01:54 310

原创聚类基础知识点

最近在学习西瓜书聚类这一张，整理了一些聚类的基础知识，记录下来，方便查阅。聚类和分类的区别：分类就是向事物分配标签，聚类就是将相似的事物放在一起。分类：贝叶斯、决策树、逻辑回归聚类：k-means、FCM、高斯混合聚类聚类目标：使同一类对象的相似度尽可能地大；不同类对象之间的相似度尽可能地小。性能度量：1.外部指标 2.内部指标距离：距离度量和非度量距离性质：非负性、同一性、对称性、直递性有序属性：闵可夫斯基距离、曼哈顿距离、欧氏距离、切比雪夫距离联合概率分布：定义：设

2020-11-23 15:03:19 540

原创 FDP聚类算法

基本假设：K-means是通过指定聚类中心，再通过迭代的方式更新聚类中心的方式，由于每个点都被指派到距离最近的聚类中心，所以导致其不能检测非球面类别的数据分布。虽然有DBSCAN（density-based spatial clustering of applications with noise）对于任意形状分布的进行聚类，但是必须指定一个密度阈值，从而去除低于此密度阈值的噪音点。基于以上分析，在CFDP算法是基于这样的假设：聚类中心周围都是密度比其低的点，同时这些点距离该聚类中心的距离相比于其他聚类中

2020-11-21 15:24:08 1323

qq_35237976的博客

原创强化学习第一天基本概念

原创 B站学习笔记

原创数据预处理

原创高斯混合聚类

原创《自然语言处理——冯志伟》学习记录(一)

原创聚类基础知识点

原创 FDP聚类算法

原创 FCM模糊聚类

原创一种方便快捷的B站爬虫方法

原创 K-means算法

空空如也

如何在一亿位整数组成的字符串中找到出现次数最多的递增数字串？