自然语言处理学习
文章平均质量分 69
君一兮
在黑白里温柔地爱彩色,在彩色里虔诚地朝圣黑白
展开
-
西湖大学自然语言处理(十一)—— 分类
西湖大学自然语言处理(十一)—— 分类分类和聚类分类和聚类聚类分类核心将数据分成簇从已经分组好的数据中训练得出目标函数,把新数据放到已经分好的组中学习类型无监督学习有监督学习典型算法K-means,DBSCAN ,层次聚类,光谱聚类决策树,贝叶斯,逻辑回归算法输出聚类结果并不确定,不一定能够反映数据的真实分类,同样的聚类,对于不同的需求,可能好也可能坏分类结果是确定的,分类的优劣是客观的,不根据业务或算法需求而定...原创 2022-04-05 22:20:36 · 2129 阅读 · 0 评论 -
西湖大学自然语言处理(十)—— 聚类
西湖大学自然语言处理(十)—— 聚类Measure vector space distanceClusteringK-means clusteringMeasure vector space distanceClusteringK-means clustering关于K-means更详细的介绍,可以参考我的这篇博客https://blog.csdn.net/qq_45645521/article/details/123040810...原创 2022-03-31 11:04:58 · 588 阅读 · 0 评论 -
西湖大学自然语言处理(九)—— 特征向量和如何将文档映射到特征空间中
西湖大学自然语言处理(九)—— 特征向量和如何将文档映射到特征空间中Feature VectorReview Navie BayesFeature vectorsVector Space ModelVector representation of documentsSparse vectors document representationStop wordsTF-IDF vectors document representationSummaryFeature VectorReview Navie B原创 2022-03-31 10:43:01 · 1097 阅读 · 0 评论 -
西湖大学自然语言处理(八)——朴素贝叶斯文本分类
西湖大学自然语言处理(八)—— 朴素贝叶斯文本分类Text classification under MLEThe Bayes ruleNaive Bayes model parameterisation processTraining a Navie Bayes classifierNavie Bayes text classificationGenerative modelsEvaluating a Text ClassifierFeatures in NLP贝叶斯公式推导Text classific原创 2022-03-31 09:53:01 · 1926 阅读 · 1 评论 -
西湖大学自然语言处理(七)—— 解决OOV问题的两种平滑技术
西湖大学自然语言处理(七)—— 解决OOV问题的两种平滑技术Knesser-Ney Smoothingabsolute discount smoothingGood-Turing Smoothing平滑的目的——解决数据稀疏性的问题Knesser-Ney Smoothing核心思想——劫富济贫absolute discount smoothing公式:P(w∣u)=max(uw∈D−δ,0)∑w′uw′+λPKN(w)P(w|u)=\frac {max(uw\in D-\delta , 0)}原创 2022-03-29 21:00:54 · 1225 阅读 · 0 评论 -
西湖大学自然语言处理(六)—— 语言模型
西湖大学自然语言处理(六)—— 语言模型语言模型一元语言模型二元语言模型三元语言模型生成模型语言模型语言模型(LM)通过更简单的模式来度量自然语言句子的概率一元语言模型估算每个词在语料库中的概率,以此来获得一句话的概率存在问题及解决方法:二元语言模型Unigram语言模型在比较“他吃了披萨”和“他喝了披萨”时存在问题,这需要动词-宾语关系存在问题及解决办法:三元语言模型解决稀疏问题的方法:为什么用对数概率?生成模型马尔可夫模型...原创 2022-03-28 16:50:30 · 464 阅读 · 0 评论 -
西湖大学自然语言处理(五)—— 概率模型
西湖大学自然语言处理(五)—— 概率模型模型模型的定义概率模型的定义概率语言模型举例极大似然估计建模过程推导过程专业术语从概率模型到概率语言模型概率分布专业术语概率分布模型模型的定义从数学意义上而言,模型是对一个特定任务或者事件的抽象和简化,这种方法使数学计算可行。概率模型的定义计算一个随机事件的概率概率语言模型举例计算词和句子出现的概率极大似然估计建模过程说明:(i,i,d)(i,i,d)(i,i,d)—— 独立同分布推导过程专业术语从概率模型到概率语言模型概率分原创 2022-03-19 10:47:39 · 1449 阅读 · 0 评论 -
西湖大学自然语言处理(四)—— 机器学习视角下的自然语言处理
西湖大学自然语言处理(四)—— 机器学习视角下的自然语言处理对于一个新的自然语言处理任务进行建模的时候,我们需要考虑三个属性,分别是语言属性,机器学习属性以及数据属性。以命名实体识别为例,从机器学习角度来看这是一个序列标注的问题,给定一段文本,我们需要看文本中的哪些是命名实体,并给它们打上标签。(决定作用)从语言学角度来看,命名实体的特征是什么?首字母大写?又或者是上下文关系?从数据属性来看,如果有人工标注的数据,影响方法选择从机器学习的角度来对自然语言处理任务进行分类:第一种分类标准:原创 2022-03-29 10:07:00 · 273 阅读 · 0 评论 -
西湖大学自然语言处理(三)——自然语言处理任务介绍
西湖大学自然语言处理(三)——自然语言处理任务介绍Fundamental NLP tasksSynatactic tasks(句法分析任务)Word LevelSentence levelSemantic tasks(语义分析任务)Word levelSentence levelText entailment(自然语言推理)Discourse tasks(篇章分析)Information Extraction tasksEntitiesNamed entity recognition(命名实体识别)Anap原创 2022-03-16 09:14:24 · 891 阅读 · 0 评论 -
西湖大学自然语言处理(二)——自然语言处理及发展历程
自然语言处理及发展历程什么是自然语言处理自然语言处理发展历程Rule-based(symbolic) approach(1950s-1980s)Statistical approach (traditional machine learning)(1980s-2000s)Connectionist approach(Neural networks)(2000s-now)什么是自然语言处理In the broadest sense,NLP refers to any program that autom原创 2022-03-14 23:15:02 · 646 阅读 · 0 评论 -
西湖大学自然语言处理(一)—— 课程简介及大纲
课程简介及大纲自然语言处理概述课程特点课程内容概述基础结构神经网络自然语言处理概述Natural Language Processing (NLP)A sub field of Al(人工智能子领域)On automatic understanding and generation of human languages(人类语言的自动理解和生成)Has evolved since the early days of computer science(从计算机科学的早期发展至今)Fast adv原创 2022-03-14 14:19:49 · 874 阅读 · 0 评论