自然语言处理概括

文本挖掘:
信息挖掘的一个研究分支,用于基于文本信息的只是发现。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。目前研究和应用最多的几种文本挖掘技术:文档聚类、文档分类和摘要抽取。




自然语言处理:
原理:形式化描述,数学模型算法化,程序化,实用化。




常用中文分词:
StanfordNLP汉语分词工具
哈工大语言云
庖丁解牛分词
盘古分词 ICTCLAS汉语词法分析系统
FudanNLP




命名实体识别
三种主流算法:CRF,字典法和混合方法  


1 CRF:在CRF for Chinese NER这个任务中,提取的特征大多是该词是否为中国人名姓氏用字,该词是否为中国人名名字用字之类的,True or false的特征。所以一个可靠的百家姓的表就十分重要啦~在国内学者做的诸多实验中,效果最好的人名可以F1测度达到90%,最差的机构名达到85%。  


2 字典法:在NER中就是把每个字都当开头的字放到trie-tree中查一遍,查到了就是NE。中文的trie-tree需要进行哈希,因为中文字符太多了,不像英文就26个。  


3 对六类不同的命名实体采取不一样的手段进行处理,例如对于人名,进行字级别的条件概率计算。   中文:哈工大(语言云)上海交大    英文:stanfordNER等




语料库
划分:时间划分、加工深度划分、结构划分、语种划分、动态更新成都划分。


构建原则:代表性、结构性、平衡性、规模性、元数据。


优缺点:
优点:研究方便,可重用,功能多样性,分析清晰。
缺点:不客观




隐马尔科夫模型:
应用:词类标注,语音识别,局部句法剖析,语块分析,命名实体识别,信息抽取。


马尔科夫链:在随机过程中,每个语言符号的出现概率不相互独立,每个随机试验的当前状态依赖于前一状态。




朴素贝叶斯模型
朴素贝叶斯公式:
0:喜悦
1:愤怒
2:厌恶
3:低落


朴素贝叶斯原理:
1、训练文本预处理,构造分类器。
2、构造预测分类函数。
3、对测试数据预处理。
4、使用分类器分类。
对于一个新的训练文档:
1、P(Category|Document):测试文档属于某类的概率。
2、P(Category):从文档空间中随机抽取一个文档d,它处于类别c的概率。
3、P(Docunment|Category):文档d对于给定类c的概率。
4、P(Document):从文档空间中随机抽取一个文档d的概率。




ROC曲线:
接受者操作特性曲线,比较机器学习好坏的可视化工具。




统计学知识:
信息图形化,集中趋势度量,概率,排列组合,分布,统计抽样,样本估计,假设检验,回归。




机器学习降维:
主要特征选取,随机森林,主成分分析,线性降维。




----  ----  ----
特征工程
本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。


----框架----
一、特征获取方案
如何获取这些特征
如何存储




二、特征处理


1、特征清洗
清洗异常样本
采样:数据不均衡、样本权重。


2、预处理
单个特征:
(1)归一化
(2)离散化
(3)Dummy Coding
(4)缺失值
(5)数据变换:log、指数、Box-Cox


多个特征:
(1)降维:PCA、LDA
(2)特征选择:
Filter:自变量和目标变量之间的关联。
Wrapper:通过目标函数来决定是否加入一个变量。
Embedded:学习器自身自动选择特征。
正则化、决策树、深度学习。


衍生变量:
对原始数据加工,生成有商业意义的变量。




三、特征监控
1、特征有效性分析:重要性、权重。
2、特征监控:监控重要特征。




----特征选择----
Filter 过滤法:
按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。


方差选择法:使用方差选择法,先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。
相关系数法:使用相关系数法,先要计算各个特征对目标值的相关系数以及相关系数的P值。
卡方检验法:经典的卡方检验是检验定性自变量对定性因变量的相关性。假设自变量有N种取值,因变量有M种取值,考虑自变量等于i且因变量等于j的样本频数的观察值与期望的差距,构建统计量。
互信息法:   经典的互信息也是评价定性自变量对定性因变量的相关性的。




Wrapper 包装法:
根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。


递归特征消除法:递归消除特征法使用一个基模型来进行多轮训练,每轮训练后,消除若干权值系数的特征,再基于新的特征集进行下一轮训练。




Embedded 嵌入法:
先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。


基于惩罚项的特征选择法:使用带惩罚项的基模型,除了筛选出特征外,同时也进行了降维。使用feature_selection库的SelectFromModel类结合带L1惩罚项的逻辑回归模型。如:基于惩罚项的特征选择法、基于树模型的特征选择法


基于树模型的特征选择法:树模型中GBDT也可用来作为基模型进行特征选择,使用feature_selection库的SelectFromModel类结合GBDT模型。




深度学习方法:从深度学习模型中选择某一神经层的特征后就可以用来进行最终目标模型的训练了。




----降维----
当特征选择完成后,可以直接训练模型了,但是可能由于特征矩阵过大,导致计算量大,训练时间长的问题,因此降低特征矩阵维度。




 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值