算法
文章平均质量分 72
咕噜oo
我们往往低估了一年内能做的事,却高估了十年后能做的事——万丈高楼平地起。
展开
-
LDA模型原理学习及应用
•LDA是一种文档主题生成模型,也称为三层贝叶斯概率模型,包含词、主题和文档三层结构。利用文档中单词的共现关系来对单词按主题聚类,得到“文档-主题”和“主题-单词”2个概率分布。•LDA认为一篇文章的每个词都是通过以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语。•LDA是一种非监督机器学习技术,可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了词袋(bag of words)的方法,将每一篇文档视为一个词频向量,从而将文本信息转化为易于建模的数字信息。每一篇文档代表了一些主题原创 2021-06-03 19:40:09 · 5365 阅读 · 0 评论 -
word2vec模型原理(附python实现代码)
•LDA是一种文档主题生成模型,也称为三层贝叶斯概率模型,包含词、主题和文档三层结构。利用文档中单词的共现关系来对单词按主题聚类,得到“文档-主题”和“主题-单词”2个概率分布。•LDA认为一篇文章的每个词都是通过以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语。•LDA是一种非监督机器学习技术,可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了词袋(bag of words)的方法,将每一篇文档视为一个词频向量,从而将文本信息转化为易于建模的数字信息。每一篇文档代表了一些主题原创 2021-06-03 19:35:01 · 2952 阅读 · 3 评论 -
网络舆情热点发现及分析(single-pass聚类)
热点话题的发现模型在整个的过程中,介绍三个点:预处理:基于网络新词的识别算法 热点话题发现:增量聚类算法Single-Pass 热点话题分析:文本倾向性分析基于网络新词的识别算法算法思路:首先根据微博文本的特点,将#和中括号之间的文本进行了提取,因为在微博中,这样的文本本身就表示一个话题,所以可以直接被提取。而对于微博的正文部分,或者本身没有#和中括号这样的文本内容,则会进行初步分词,然后利用中文分词系统对初步分词进行筛选,删掉旧词,得到网络新词。这时候就得到了两组新词,.原创 2021-01-16 10:02:35 · 6972 阅读 · 1 评论 -
什么是参数估计?
参数估计(parameter estimation)参数估计属于统计推断的范畴,是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。统计推断是数理统计研究的核心问题,是指根据样本对总体分布或分布的数字特征等作出合理的推断。参数估计分为:点估计、区间估计点估计(point estimation)点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估原创 2020-10-20 20:06:51 · 15221 阅读 · 0 评论 -
机器学习基础之初识机器学习中的各种模型和算法
目录算法概述监督学习无监督学习算法分类回归模型正则化模型聚类模型关联规则模型判别模型贝叶斯模型决策树模型降维模型图模型支持向量机模型人工神经网络模型集成模型深度学习算法概述总体分类,机器学习中的算法模型可以分两大类:监督学习算法 无监督学习算法监督学习监督学习是指利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有导师训练。在监督学习中,每个实例都是由一个输入对象(通常为矢量)..原创 2020-10-09 21:28:01 · 1684 阅读 · 0 评论 -
PageRank算法改进
PageRank算法的应用PageRank 算法是 Google 搜索引擎进行网页排名的一种算法,那么它如何映射到其他领域?比如,我们如何在文献排名中应用PageRank算法呢?对文献的质量进行排序是对文献价值进行评估的一种重要手段,目的是为了方便人员在检索时查阅。统计文献的被引次数是一种非常直观的统计方式,在此基础之上,我们引入了 PageRank算法:该算法基于网页之间的链接关系评估网页的价值,由于互联网与文献引用网络之间存在着较大的相似性,所以基于文献之间的引用网络使用 PageRan原创 2020-09-24 11:28:44 · 4593 阅读 · 0 评论 -
PageRank算法的Python实现
代码:# -*- coding: utf-8 -*-"""Created on Sat Sep 12 10:36:10 2020@author: Administrator"""from pygraph.classes.digraph import digraphclass PRIterator: __doc__ = '''计算一张图中的PR值''' def __init__(self, dg): self.damping_factor = 0.8原创 2020-09-16 21:22:22 · 3673 阅读 · 2 评论 -
链接分析算法在网络舆情热点
基于PageRank算法的热点舆情挖掘原理:PageRank算法原理在舆情热点挖掘中引入PageRank算法思想,构造舆情网络,单个节点的重要性来 自于该网络中其 他成员节点重要性的线性组合,从而建构一个线性方程组,舆情网络 中各节点的重要性即该线性方程组最大特征值所对应的特征矢量。以下算法可以用来描述舆情络 的热点挖掘过程 :(1)取 n个直接或间接链接关系的页面构建舆情网络,每个页面为该网络的节点 ;(2)建立该舆情网络的邻接矩阵A,其中aij=1表示节点 i与节点j之间存在直接..原创 2020-09-11 10:22:40 · 883 阅读 · 0 评论 -
链接算法之Hits算法原理浅析
hits算法中有两个核心概念:中心值(Hub Scores),权威值(Authority Scores),这两种值是互相依存、互相影响的。中心值:指的是页面上所有导出链接指向页面的权威值之和。权威值:指所有导入链接所在的页面中枢纽值之和。Authority网页是和查询内容相关的高质量网页,Hub网页是指向高质量Authority网页链接的网页。原理解释:网页a (i)在此轮迭代中的Authority权值即为所有指向网页a (i)页面的Hub权值之和:a (i) = Σh (i)原创 2020-09-11 09:32:33 · 1218 阅读 · 0 评论 -
链接算法之PageRank算法原理和应用
目录算法简介算法原理简单实现优缺点算法简介PageRank算法基于“从许多优质的网页链接过来的网页,必定还是优质网页”的回归关系,来判定网页的重要性。有以下两个影响因素:•数量因素:一个页面节点接收到的入链数量越多,这个页面越重要•质量因素:指向页面A的入链质量不同,越是质量高的页面指向页面A,则页面A越重要算法原理•假设一个由4个网页组成的群体:A,B,C和D。如果所有页面都只链接至A,那么A的PR(PageRank)值将是B,C及D的Pageran..原创 2020-09-11 09:25:40 · 2916 阅读 · 0 评论 -
蚁群算法简析、缺陷、改进
蚁群算法是一种用来寻找优化路径的概率型算法,模拟蚂蚁在寻找食物过程中发现路径的行为。原创 2020-07-18 18:20:56 · 45334 阅读 · 5 评论 -
KNN(K最邻近分类算法)
K最近邻(KNN,K-NearestNeighbor)分类算法,是比较经典的分类算法,是将数据集合中每一个记录进行分类的方法,属于懒惰性学习算 法,只有当需要分类的向量到达时才开始构造泛化模型。是数据挖掘分类技术中最简单的方法之一。算法中的每个样本都可以用它最接近的K个邻近值来代表。KNN算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。基本原理在样本集中找出与待分类向量 tVec 最相似的 k 个向量,然后统计这 k 个向量中 出现次数最多的.原创 2020-07-16 17:17:43 · 1926 阅读 · 0 评论 -
朴素贝叶斯分类算法简介
先验概率(边缘概率)指根据以往经验和分析得到的概率,比如全概率公式。是"由因求果"问题中的"因"。后验概率(条件概率)指在得到“结果”的信息后重新修正的概率。是“执果寻因”问题中的"果"。后验概率的计算,要使用贝叶斯公式,而且在利用样本资料计算逻辑概率时,还要使用理论概率分布,需要更多的数理统计知识。贝叶斯公式是关于随机事件A和B的条件概率的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。朴素贝叶斯分类算法是应用最为广泛的分类算法之一,是以贝叶斯定理为基础,并且假设特征条原创 2020-07-15 11:16:04 · 959 阅读 · 0 评论