自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 NLP学习路径(六):NLP句法分析

1、句法分析(1)主要任务:识别出句子所包含的的句法成分以及这些成分之间的关系,一般以句法树来表示句法分析的结果。(2)难点:歧义;搜索空间(3)句法分析种类:①完全句法分析:以获取整个句子的句法结构为目的②局部句法分析:只关注局部的一些成分,例如依存句法分析(4)句法分析方法:基于规则(存在语法规则覆盖有限、系统可迁移差等缺陷);基于统计(一套面向候选树的评价方法,其会给...

2019-03-30 09:37:12 2267

原创 机器学习中样本比例不平衡的处理方法

1、样本不平衡往往会导致模型对样本数较多的分类造成过拟合,即总是将样本分到了样本数较多的分类中;除此之外,一个典型的问题就是 Accuracy Paradox,这个问题指的是模型的对样本预测的准确率很高,但是模型的泛化能力差。2、针对样本的不平衡问题,有以下几种常见的解决思路①搜集更多的数据 搜集更多的数据,从而让正负样本的比例平衡,这种方法往往是最被忽视的方法,然而实际上...

2019-03-29 14:05:15 1090

原创 关于集成学习的学习笔记

1、常见的集成学习框架bagging,boosting、stacking(1)bagging从训练集进行子抽样组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果。(2)boosting训练过程为阶梯状,基模型按次序一一进行训练(实现上可以做到并行),基模型的训练集按照某种策略每次都进行一定的转化。对所有基模型预测的结果进行线性综合产生最终的预测结果。(...

2019-03-28 13:47:54 371

原创 NLP学习路径(四):NLP词性标注与命名实体识别

1、词性标注(1)词性标注简介词性标注是在给定句子中判定每个词的语法范畴,确定其词性并加以标注。但在中文中,一个词的词性很多时候都是不固定的。从整体上看大多数词语,尤其是实词,一般只有1-2个词性,且其中一个词性的使用频次远远大于另一个,即使每次都将高频词性作为词性选择进行标注,也能实现80%以上的准确率。目前较为主流的方法是同分词方法一样,将句子的词性标注作为一个序列标注问题来解决,即可以...

2019-03-26 09:13:35 3172

原创 NLP学习路径(三):NLP中文分词技术

1、中文分词简介难点:分词歧义方法:1)规则分词:人工建立词库,按一定方式匹配切分。缺点:对新词很难进行处理。2)统计分词:利用机器学习技术。缺点:过于依赖语料的质量。3)混合分词:上述两种方法的结合。(用得较多)2、规则分词主要是通过维护词典,在切分语句时,将语句的每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。主要方法有:正向最大匹配法;逆向最大匹配法;双向最大匹...

2019-03-23 09:35:59 937

原创 Jieba:高频词提取

1、高频词定义高频词是指文档中出现频率较高且非无用的词语,其一定程度上代表了文档的焦点所在。针对单篇文档可以作为一种关键词来看。对于如新闻这样的多篇文档,可以将其作为热词,发现舆论热点。高频词提取的干扰项:1)标点符号2)停用词:类似“的”,“是”,“了”等无意义的词。...

2019-03-23 09:31:52 4983

原创 NLP学习路径(二):NLP前期技术要求

1、正则表达式在NLP中的基本应用

2019-03-16 22:23:40 1095

原创 NLP学习路径(一):NLP基础知识

1、基本术语:(1)分词分词常用手段:基于字典的最长串匹配,但歧义分词很难。比如:美国/会/通过法案。美/国会/通过法案。(2)词性标注词性:动词、名词、形容词等目的:表征词的一种隐藏状态,隐藏状态构成的转移就构成了状态转移序列。比如:我/r爱/v中国/ns。其中,ns代表名词,v是动词,ns,v都是标注。(3)命名实体识别指从文本中识别具有特定类别的实体(通常是名词),例如人名、地...

2019-03-16 21:26:29 2355

转载 贝叶斯网络结构学习方法简介

转自:https://blog.csdn.net/jbb0523/article/details/78804386

2019-03-11 10:58:22 855

原创 EXCEL中把时间戳转换为日期格式

方法:=TEXT((E7+83600)/86400+70365+19,“yyyy-mm-dd hh:mm:ss”)

2019-03-02 14:49:15 7561

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除