nlp入门
文章平均质量分 57
nlp入门
dataastron
工程师
展开
-
nlp赛事_关系抽取任务
百度2020年提供了5个赛道nlp赛事_事件抽取任务本文内容关系抽取就是根据SPO三元组标注训练模型,使得模型能够自动识别SPO三种类别 .任务目标是在给定的文本句子中,根据预先定义的schema集合,抽取出所有满足 schema 约束的 SPO 三元组。schema 定义了关系 P 以及其对应的主体 S 和客体 O 的类别,根据 O 类型的复杂程度可以划分为以下两种:简单 O 值...原创 2020-05-08 13:22:41 · 2052 阅读 · 1 评论 -
通用特征选择方法
计算每一个特征与响应变量的相关性(皮尔逊系数和互信息系数) 构建单个特征的模型,通过模型的准确性为特征排序, 当选择到了目标特征之后,再用来训练最终的模型通过L1正则项来选择特征特性训练能够对特征打分的预选模型(RandomForest等) 可能还有一些其他更有效的特征选择或者提取方法原创 2018-01-12 23:34:00 · 399 阅读 · 0 评论 -
提取前后两个字
regexp_extract(content, ‘(.{2}客户.{2})’, 1)原创 2018-09-20 19:22:41 · 1095 阅读 · 0 评论 -
tf-idf 和卡方的区别
tf-idf倾向于选择区有文档区分度的词,而卡方倾向于选择有类别区分度的词。而我们的目标是分类,当然要选择有类别区分度的词。比如,镜头和华为这两个词的文档区分度都很高。然而,华为可能出现在“科技”, “摄影”, “生活“, “地区”等多个类别中,镜头基本上都集中在摄影这个类别中。我们可以很大程度上这样判断,如果文章中出现了”镜头“一词,那么它很可能是属于摄影分类的。因为卡方有”低频词缺陷”, 不能转载 2018-02-07 15:57:48 · 1045 阅读 · 0 评论 -
卡方检验原理及应用
卡方检验用于文本特征词选择。https://segmentfault.com/a/1190000003719712卡方检验,或称x2检验,被誉为二十世纪科学技术所有分支中的20大发明之一,它的发明者卡尔·皮尔逊是一位历史上罕见的百科全书式的学者,研究领域涵盖了生物、历史、宗教、哲学、法律。之前做文本分类项目用过卡方值做特征选择(降维),后来听内部培训,另一个部门说他们有用卡方检验做异常转载 2018-02-07 15:18:06 · 480 阅读 · 0 评论 -
度量函数
select a, (2 /(1 + exp(-(count()) ) ) -1) as bfrom tablegroup by a order by count() desc;原创 2019-06-25 18:10:54 · 941 阅读 · 0 评论 -
阿里天池讲座之特征工程
云里雾里的特征工程特征工程的重要性特征 模型 融合mutiview sparkingtsfresh电力按月划分lr blend 多视角学习原创 2017-10-02 10:39:48 · 917 阅读 · 0 评论 -
阿里云数加机器学习平台资源总结
阿里云数加PAI机器学习平台资源总结阿里云机器学习平台:PAI平台快捷键-云栖社区公众号(阿里云机器学习) https://yq.aliyun.com/teams/47/type_ask?spm=5176.doc30350.2.8.A9FAf6 Ctrl + B - 斜体 Ctrl + I - 引用 Ctrl + Q - 插入链接 Ctrl + L原创 2017-09-03 00:14:30 · 881 阅读 · 1 评论 -
文本分析 停用词表 停用词过滤
停用词过滤,是文本分析中一个预处理方法。它的功能是过滤分词结果中的噪声(例如:的、是、啊等)pai提供几个停用词的集合供参考1. 的,是,了,在,我,这,有,一,人,和,都,你,就,个,也,被,到,要,上,还,为,能,来,给,对2. [中文停用词(1208个)](https://github.com/JNU-MINT/TextBayesClassifier/blob/master/%E原创 2017-09-11 10:39:51 · 18349 阅读 · 1 评论