笔记
刹那永恒HB
看了不点赞,画个圈圈诅咒你!!!!!
展开
-
天池机器学习训练营笔记--第一天 基于逻辑回归的分类预测
1 什么是逻辑回归假设现在有一些数据点,我们用一条线(准确的说是超平面)对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归。逻辑回归(Logistic regression,简称LR)就是根据现有数据建立回归方程来确定分类边界,并以此来分类。因此虽然其中带有"回归"两个字,但逻辑回归其实是一种分类模型。逻辑回归模型广泛用于各个领域,包括机器学习,大多数医学领域和社会科学。例如,最初由Boyd 等人开发的创伤和损伤严重度评分(TRISS)被广泛用于预测受伤患者的死亡率,使用逻辑回归基于观察到原创 2021-01-06 22:50:25 · 150 阅读 · 0 评论 -
Chinese NER Using Lattice LSTM论文辅助解读
知识抽取知识抽取中关键技术主要是NLP处理技术,主要以命名实体识别与实体链接、实体关系抽取、事件抽取为主。简介实体抽取,又称命名实体识别(Named Entities Recognition,NER),主要任务是识别命名实体的文本范围,并将其分类为预定义的类别,学术上所涉及一般包含三大类,实体类、时间类、数字类和7个小类,比如人、地名、时间、组织、日期、货币、百分比,是问答系统、翻译系统、知识图谱的基础,早期的NER的方法主要由语言学家手工构造规则模板,选用特定特征,包括统计信息、标点符号、指原创 2020-10-09 18:56:59 · 358 阅读 · 0 评论 -
三种标注法
一、BMES 四位序列标注法B表示一个词的词首位值,M表示一个词的中间位置,E表示一个词的末尾位置,S表示一个单独的字词。我/S 是/S 广/B 东/M 人/E (符号标注,‘东’是‘广’和‘人’的中间部分,凑成‘广东人’这个实体)我/ 是/ 广东人/ (标注上分出来的实体块)二、BIO 三位标注 (B-begin,I-inside,O-outside)B-X 代表实体X的开头, I-X代表实体的结尾 O代表不属于任何类型的三、BIOES (B-begin,I-i原创 2020-10-09 18:55:51 · 2368 阅读 · 0 评论 -
分词
简述分词是自然语言处理的基础,分词准确度直接决定了后面的词性标注、句法分析、词向量以及文本分析的质量。英文语句使用空格将单词进行分隔,除了某些特定词,如how many,New York等外,大部分情况下不需要考虑分词问题。但中文不同,天然缺少分隔符,需要读者自行分词和断句。故在做中文自然语言处理时,我们需要先进行分词。中文分词难点难点主要集中在分词标准,切分歧义和未登录词三部分。分词标准比如人名,有的算法认为姓和名应该分开,有的认为不应该分开。这需要制定一个相对统一的标准。又例如“花草”,有的人原创 2020-09-28 10:26:22 · 379 阅读 · 1 评论 -
无监督学习的K-means聚类
轮廓图展示聚类饭果:对于样本点Xi,silhouette值s(xi)定义为s(xi)=原创 2020-09-27 14:01:23 · 121 阅读 · 0 评论