![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
学习笔记
文章平均质量分 71
锦堇年
NLP学弱
展开
-
学习笔记(1)-数据挖掘及其应用浅谈
刚刚结束数据挖掘的课程,对数据挖掘的理论与算法有了一定的了解,借此报告的机会对数据挖掘知识进行一些梳理,并对现有工作中数据挖掘的应用和存在的问题进行讨论。 一、数据挖掘知识汇总(简介): 数据挖掘是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤,其本质是在大型的存储数据中自动的发现有用信息的过程。任务包括预测建模(分类及回归拟合原创 2015-12-12 11:24:13 · 1424 阅读 · 0 评论 -
指代消解系列(1)-综述
一、什么是指代消解?1、指代的基本概念指代作为一种常见的语言现象,广泛存在于自然语言的各种表达中。eg:***俄罗斯总统*** 在德国发表讲话时表示:“我们不排除中油集团参与已拍卖的尤甘斯克的生产。”***他*** 表示,中油集团没有参加这次拍卖一般代词消解和早期的指代消解(Anaphora Resolution)指的是对显性代词消解算法的研究,再后来指代消解包含并开始侧重于共指(Corefe原创 2016-06-16 20:45:48 · 14033 阅读 · 6 评论 -
大数据比赛(3)- 模型选择II
常用模型概述神经网络与深度学习初步基础原创 2016-05-10 10:02:51 · 900 阅读 · 0 评论 -
学习笔记(2)-标签传播算法伪代码实现
算法名称:社区发现中的标签传播算法(LPA) 算法输入:无向无权图邻接矩阵AdjacentMatrix,节点个数VerticeNum 算法输出:存储节点标签的分类数组Community//初始化每个节点的标签For i <- 0 to VerticeNum Do Community[i] <- i //寻找i节点的所有邻居存入Neighbor[i] FindMaete原创 2015-12-12 15:05:18 · 4668 阅读 · 1 评论 -
大数据比赛(3)- 模型选择I
聊完特征,就要说说模型的选择与实现。虽然已经接触了不少机器学习方法和模型,但最近才对监督学习有了一些提纲挈领的认识,在介绍模型的同时对这些零散的知识进行简单的汇总。(谁让我健忘。。)监督学习的基本模式陈天奇大大有一篇将boost tree的文章里提到了监督学习的key concepts,抄来加深一下印象: 监督学习要素:样本(标记) 模型 参数 目标函数 优化方法 i. 模型和参数 模型指给定原创 2016-05-09 16:25:22 · 5790 阅读 · 0 评论 -
学习笔记(3)-重叠社区发现Copra算法
应师兄要求,阅读了有关重叠社区发现的文章Finding overlapping communities in networks by label propagation,文中提出了一种基于LPA的扩展算法COPRA,可以用于重叠社区的发现。简单来说,COPRA算法为每个节点添加了一个标签列表,列表的长度为算法的一个参数v,每个节点最多可以拥有v个标签,也即可以存在于最多v个社区之中。 此外,COPR原创 2015-12-25 12:42:38 · 13873 阅读 · 21 评论 -
自然语言处理基本知识小结
1.什么是NLP? 人与人、人与计算机交互中的语言问题。 能力模型,通常是基于语言学规则的模型,建立在人脑中先天存在语法通则这一假设的基础上,认为语言是人脑的语言能力推导出来的,建立语言模型就是通过建立人工编辑的语言规则集来模拟这种先天的语言能力。又称“理性主义的”语言模型。 应用模型,根据不同的语言处理应用而建立的特定语言模型,通常是基于统计的模型。又称“经验主义的”语言模型,使用大规模真实原创 2016-03-04 15:39:50 · 5245 阅读 · 0 评论 -
机器学习基础小结
分类器的设计就是在给定训练数据的基础上估计其概率模型P(Y|X)。监督学习方法又分生成方法(Generative approach)和判别方法(Discriminative approach),所学到的模型分别称为生成模型(Generative Model)和判别模型(Discriminative Model),典型的判别模型包括k近邻,感知机,决策树,支持向量机等,典型的生成模型有:朴素贝叶斯和隐原创 2016-03-04 15:20:00 · 521 阅读 · 0 评论 -
学习笔记(5)-标签传播(LPA)小结
1、社区及社区发现: 网络图内部连接比较紧密的节点子集合对应的子图叫做社区(community),各社区节点集合彼此没有交集的称为非重叠型(disjoint)社区,有交集的称为重叠型(overlapping)社区。对给定的网络图寻找其社区结构的过程称为“社区发现”。大体上看,社区发现的过程就是一种聚类的过程。2、基本思想 标签传播算法是不重叠社区发现的经典算法,其基本思想是:将一个节点的邻居节点原创 2016-03-08 20:50:14 · 12660 阅读 · 1 评论 -
学习笔记(4)-社区发现评价指标
目前使用的主要有:Q(Modulartiy),Jaccard指数与Fsame值,NMI也是常用指标。c语言实现://当i和J属于同一个社团时,E函数等于l,否则等于0. 故只需计算同一社区的函数值double Modulartiy(int * cluster_assignment, int ** M, int vertices){ int i, j, k; int maxlabl原创 2015-12-25 15:05:23 · 4173 阅读 · 0 评论 -
学习笔记——Bias-variance
Bias-variance 分解是机器学习中一种重要的分析技术。给定学习目标和训练集规模,它可以把一种学习算法的期望误差分解为三个非负项的和,即本真噪音、bias和 variance。本真噪音是任何学习算法在该学习目标上的期望误差的下界;( 任何方法都克服不了的误差) bias(偏倚) 度量了某种学习算法的平均估计结果所能逼近学习目标的程度;(独立于训练样本的误差,刻画了匹配的准确性和质量:一个高原创 2016-05-09 10:28:57 · 3002 阅读 · 0 评论