自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 微博关于搜索话题数据的爬虫Python全代码实现(效果如封面)

微博关于搜索话题数据的爬虫Python全代码实现(效果如封面)

2024-04-21 19:11:07 295 1

原创 微博_wanglian_数据可视化分析Python实现

jieba库分词后词云库,数量的可视化分析,Python实现

2024-04-20 14:36:39 761

原创 豆瓣读书top250的书籍数据可视化分析Python全代码实现

豆瓣读书top250的书籍数据可视化分析Python全代码实现

2024-01-17 15:24:51 671

原创 豆瓣读书top250的书籍数据爬虫Python全代码实现

豆瓣读书top250的书籍数据爬虫Python全代码实现

2024-01-16 22:41:03 1107

原创 【无标题】

Singular Value Decomposition)是机器学习领域广泛应用的算法,可以用于降维,推荐系统,自然语言处理等领域。(式-1)A为n阶矩阵,x为非零向量,λ为常数,则称λ为A的特征值,x为A的特征向量对于多个λ特征值,则有一个特征向量矩阵,得到如下公式为特征向量矩阵,主对角线上为特征值,其余为0。...

2022-08-12 20:55:31 187 1

原创 【无标题】

聚类就是把数据对象集合按照相似性划分成多个子集的过程(如下图)。其中,每个子集称为一个簇。聚类不仅要使簇中的对象彼此相似,而且要与其他簇中的对象相似。聚类是无监督学习,数据不需要类标号(标注)信息。(主要学习硬聚类)分类是有监督学习,即每个训练样本的数据对象已经有类标签,通过有标签样本学习分类器。聚类是无监督学习,即不使用训练数据进行学习,通过观察学习将数据集分割成多个簇对于离散属性需要DVM计算两个样本点的距离闵可夫斯基距离当p=2时为欧氏距离当p=1时为曼哈顿距离层次聚类。...

2022-08-05 20:24:23 243

原创 【无标题】

无监督学习是从无标注的数据中学习数据的统计规律或者说内在的结构的机器学习,主要包括聚类,降维,概率估计。无监督学习可以用与数据分析或监督学习的前处理。把样本中相似的集合分配到同一类,不相似的样本分配到不同类,它又有软聚类和硬聚类。假设训练数据是从一个概率模型生成的,由训练数据学习概率模型的参数。从高维空间转换到低维空间,通过降维更好的反映数据的结构。发现文本集合中每个文件的话题,而话题由单词的集合表示。可以帮助发现数据中的统计规律。帮助发现高维数据中的统计规律。无监督学习的基本原理。...

2022-08-05 19:57:40 87

原创 条件随机场

条件随机场是给定输入随机变量X条件下,输出随机变量Y的条件概率分布模型,其形式为参数化的对数线性模型。条件随机场(或概率无向图模型)的联合概率分布可以分解为 无向图最大团上的正值函数的乘积 的形式。是给定条件随机场 P(Y|X),输入序列x 和输出序列 y ,计算条件概率 P(Yi=yi|x), P(Yi-1=yi-1,Yi=yi|x) 以及相应的数学期望的问题。给定条件随机场 P(Y|X) 和输入序列(观测序列)x,求条件概率最大的输出序列(标记序列)y ,这也是其重要应用——标注问题。...

2022-08-05 19:45:50 688

原创 隐马尔可夫模型

首先我们就会根据初始状态分布得到状态i1,有了i1就能根据B得到o1,根据定义,每个状态生成一个观测组成观测序列,所以我们下一步需要得到i2状态,具体方法是通过A,也就是aij状态转移概率分布来产生状态i2,然后又可以得到o2,循环往复,一直到得到T个观测序列。我们想向以下,在t+1时刻,此时状态为i,那么之前的时刻状态可不一定是i,在t+1时刻都将转化为i状态,所以方括号里面就是其他所有状态在t时的前向概率乘以状态转移概率(即从j转化为i的概率),从而得到了t时刻在任何状态下观测到o1……...

2022-07-29 19:47:37 928

原创 第八章 提升方法

/权值大使得下个样本的分类误差率大,使得下一个分类模型在最终分类模型中的系数α变小,作用变小(相当于惩罚作用,抑制误分类);AdaBoost算法无需下界,且有适应(abaptive)性,能适应弱分类器各自的误差,这也是该适应性提升算法的由来;认为AdaBoost算法,是以加法模型为模型,指数函数为损失函数,前向分布算法为算法的二分类学习方法;提升方法实际采用加法模型(基函数的线性组合与前向分类算法),以决策树为基函数的提升方法称为提升树;如何提升,这就需要提升方法了,例如本章论述的AdaBoost算法;..

2022-07-22 19:48:32 316

原创 【无标题】

而这几个点,在代数空间中被称为向量,由于这几个点的支持才找到了唯一超平面,正实例点所对应的超平面H1,负实例点所对应的超平面H2,两者相互平行,分离超平面位于该两超平面的中央,两超平面H1和H2之间的距离称为间隔(margin);接着找到几何间隔最小的几个点(通过寻找离超平面类最相近的点确认几何间隔最小的几个点),计算它们的最大几何间隔,即可找到唯一超平面;如果字串的参数在s串中不是连续的,那么i|u|到i1之间就包括了字串u的所有元素和其他元素的个数总和>字串u的元素个数;...

2022-07-22 19:47:21 117

原创 【无标题】

令g(θ)等于一阶导函数f(θ)’,那么,新的θ为原θ-函数g(x)值除以一阶导g(θ)',即函数值除以斜率k,得θ距离,新θ即等于原θ-该θ距离;最大熵模型的作用,计算出熵最大的条件概率分布,依据条件概率分布对输入的x进行分类;假设海森矩阵是正定的,那么它的逆是正定,则其二次型大于0,第二项小于0,上式成立;学习的目的利用最大熵模型找到最大条件熵的概率分布函数,通过已知x找到y的类别;也就是这两步,将指数部分的n个δi移除,之后对δi求偏导,则仅剩唯一的δi;...

2022-07-15 18:55:18 67

原创 【无标题】

原型人口增长率和人口量成线性关系->人口量的指数增长->给人口增长增加一个环境阻力(二次型)->计算现存人口占环境承受最大人口比例P(t)->对P(t)求一阶导得P(t)微分方程->整理得P(t)函数表达式;极大似然法就是,计算一组数据出现的整体可能,即样本点的概率积,找出使这个概率积最大的概率p(也可以是其他参数);分布函数属于逻辑斯蒂函数(简化而来),其图形是一条S型曲线(sigmoidcurve),该曲线以点(μ,1/2)中心对称。由概率条件分布P(Y|X)表示,//形式为参数化的逻辑斯蒂分布;...

2022-07-15 18:53:18 557

原创 统计学习方法第五章决策树

第五章 决策树5.1 决策树模型与学习5.1.1 决策树模型5.1.2 决策树与if-then 规则5.1.3 决策树与条件概率分布5.1.4 决策树的学习5.2 特征选择5.2.1 特征选择问题5.2.2 信息增益5.3.2 信息增益比5.3 决策树的生成5.3.1 ID3 算法5.3.2 C4.5的生成算法5.4 决策树的剪枝5.5 CART 算法5.5.1 CART的生成1.回归树的生成2.分类树的生成5.5.2 CART 剪枝5.1 决策树模型与学习5.1.1

2022-07-08 18:37:01 155 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除