自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 问答 (1)
  • 收藏
  • 关注

原创 强化学习第一天 基本概念

MDP:马尔可夫决策过程Random Variable:随机变量stochastic Process:随机过程 St t从1到无穷Markov Progress:马尔可夫过程 具有马尔可夫性质的随机过程state space Model:状态空间模型 马尔科夫链+状态观测对象Markov Reward Process:马尔科夫链+奖励函数MarKov Decision Process:马尔科夫链+奖励函数+ActionS:state setA:Action setR:Reward set

2021-05-27 21:22:16 120

原创 B站学习笔记

张量(tensor)0维张量/标量 标量是一个数字1维张量/向量 1维张量称为“向量”。2维张量 2维张量称为矩阵3维张量 公用数据存储在张量 时间序列数据 股价 文本数据 彩色图片(RGB)张量=容器优化方法梯度下降挑选一个初始值W0,重复迭代更新W0学习率:步长的超参数沿梯度方向将增加损失函数值学习率不能选太小(尽量少计算梯度),也不能选太大在整个训练集上算梯度太贵,随机采样b个样本i1,i2,…,ib来近似损失b是批量大小,另一个重要的超参数,批量大小不能太小也不能太大梯

2021-05-17 17:12:15 144

原创 数据预处理

数据可能存在的问题在实际业务处理中,数据通常是脏数据。所谓的脏,指数据可能存在以下几种问题(主要问题):数据缺失 (Incomplete) 是属性值为空的情况。如 Occupancy = “ ” 数据噪声 (Noisy)是数据值不合常理的情况。如 Salary = “-100” 数据不一致 (Inconsistent)是数据前后存在矛盾的情况。如 Age = “42” vs. Birthday = “01/09/1985” 数据冗余 (Redundant)是数据量或者属性数目超出数据分析需要的

2021-04-15 17:07:53 1017

原创 高斯混合聚类

高斯混合聚类将高斯分布、贝叶斯公式、极大似然法(EM)估计的思路混合在这一种方法中。高斯混合聚类是从概率的角度对样本进行聚类的,而且这个概率是连续概率。基础概念先验概率:指根据以往经验和分析得到的概率。 类条件概率:指已知一个条件下,结果发生的概率。 后验概率:判断结果的发生是由哪个原因引起的概率。 一元高斯函数:多元高斯分布:对n维样本空间 X中的随机向量x,若x服从高斯分布,其概率密度函数为:上面的一元正态公式其实就是当n = 1 的时候的特殊化。...

2020-11-28 15:53:31 2187

原创 《自然语言处理——冯志伟》学习记录(一)

A. M. Turning算法计算模型的研究N. Chomsky形式语言理论的研究C. E. Shannon概率和信息论模型的研究结构化数据、非结构化数据正则表达式有限自动机Markov链:随机过程有两层含义:1.它是一个时间上的函数,随着时间的改变而改变。2.每个时刻的函数值是不同的,是随机的,也就是说,每一时刻上的函数值按照一定的概率分布。语言的使用被当作一个随机过程,在这个随机过程中,所出现的语言符号是随机试验的结局,语言就是一系列具有不同随机试验结局的链.

2020-11-24 23:01:54 234

原创 聚类基础知识点

最近在学习西瓜书聚类这一张,整理了一些聚类的基础知识,记录下来,方便查阅。聚类和分类的区别:分类就是向事物分配标签,聚类就是将相似的事物放在一起。分类:贝叶斯、决策树、逻辑回归聚类:k-means、FCM、高斯混合聚类聚类目标:使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。性能度量:1.外部指标 2.内部指标距离:距离度量和非度量距离性质:非负性、同一性、对称性、直递性有序属性:闵可夫斯基距离、曼哈顿距离、欧氏距离、切比雪夫距离联合概率分布: 定义:设

2020-11-23 15:03:19 419

原创 FDP聚类算法

基本假设:K-means是通过指定聚类中心,再通过迭代的方式更新聚类中心的方式,由于每个点都被指派到距离最近的聚类中心,所以导致其不能检测非球面类别的数据分布。虽然有DBSCAN(density-based spatial clustering of applications with noise)对于任意形状分布的进行聚类,但是必须指定一个密度阈值,从而去除低于此密度阈值的噪音点。 基于以上分析,在CFDP算法是基于这样的假设:聚类中心周围都是密度比其低的点,同时这些点距离该聚类中心的距离相比于其他聚类中

2020-11-21 15:24:08 1094

原创 FCM模糊聚类

模糊聚类:思想:使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。模糊C均值算法是普通C均值算法的改进,普通C均值算法对于数据的划分是硬性的,而FCM则是一种柔性的模糊划分。首先,需要一种方法度量两个样本的相似性,这个就是距离。FCM是一种重要的聚类算法,其目标是将n维空间中的数据X = {x_1, ..., x_N}分配到C个聚类中心v_1, ..., v_C。在欧氏距离意义下,数据靠近哪个聚类中心就属于哪个类。把这种一个样本属于结果的这种相似的程度称为样本的隶属度,一般用

2020-11-21 09:29:02 1455

原创 一种方便快捷的B站爬虫方法

最近需要用到B站上的一些数据,例如弹幕和评论,无意间发现B站大佬在github开源了一个B站API调用库,使用文档详细,有人更新维护。GitHub 地址为:https://github.com/Passkou/bilibili_api目前已经更新到了v3.1.2版本。通过这个 API 调用模块,我们可以实现获取视频的评论、弹幕、播放量等信息,还可以实现投币、点赞、发送弹幕等一系列的用户功能,非常方便。在使用这个 API 之前,我们需要安装该库pip install bilibili_a

2020-11-20 10:56:06 2008 1

原创 K-means算法

K-means:k-means的目标函数:其中,表示数据集中点的总数目,表示所需聚类的数据,表示第K个中心点的位置。对于,当属于第K个类时,否则正在上传…重新上传取消正在上传…重新上传取消正在上传…重新上传取消。于是从式(1)可知,K-means算法的最终目标为求解正在上传…重新上传取消正在上传…重新上传取消正在上传…重新上传取消与正在上传…重新上传取消正在上传…重新上传取消正在上传…重新上传取消。时间复杂度:O(tKmn),其中,t为迭代次数,...

2020-11-20 09:36:34 2588 3

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除