命名实体技术

在这里插入图片描述

简历分析:抽取有用分析。
在这里插入图片描述
搭建ENR分类器
1、定义实体种类。2、准备训练数据.3、训练ENR
NER方法:
利用规则(比如正则)、投票模型、利用分类模型(非时序 模型:逻辑回归、SVM;时序模型:HMM)

基于规则的方法:用正则的办法写一些规则或者利用一定定义好的完整的词库,最后就是利用人工的办法。

基于投票的方法:统计每个单词的实体类型,记录针对每个单词出现概率最大的实体模型。例前三句话中讲London划分为GEO,第四句话划分为location。那么再出现London这个单词那么它为GEO的可能性很大。

做特征工程,提取一些特征,就有了特征向量,将特征向量放入模型里面,进行学习训练。最重要的工程:特征工程。
特征提取:随机森林,缺点:无法考虑上下文单词信息。
我们所进行的特征提取(以英文作为例子):
1、Bag-of-word features:前后词、当前词、前前词、后后。
2、词性考虑,包括前后词的词性,前前后后词的词性
3、冠词
4、前缀后缀
5、特性:是否大写、包含多少个大写字母、是否有特殊符号、是否包含数字

特征编码(Feature Encoding)
常见的特征种类:
1、分类categoryl特征 :转化为01 10 这种
在这里插入图片描述
2、连续型特征
身高特征、温度特征、
处理办法:直接使用(做归一化的操作:将特征归为0~1;特征做高斯分布);连续特这行做离散化处理,比如身高,每10cm为一组 ,即转为类别:
在这里插入图片描述
做离散化:有时候我们用的是逻辑回归,为线性模型,如果我们想得到非线性的结果,那么将连续特征离散化,添加一些非线性因素,这样模型就具有非线性的性质;

3、 Ordinal Feature
与连续型特征不一样,比如成绩(ABCD)
连续性:
在这里插入图片描述
在这里插入图片描述
ordinal feature:用规则去产生这个特征,只能了解到顺序,但是不知道他们之间量化关系。
处理办法:
1、直接使用
2、当做分类特征使用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

九久呀

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值