NLP
__盛夏光年__
这个作者很懒,什么都没留下…
展开
-
【NLP实战】Task2:特征处理
一、基本文本处理技能1、分词匹配方法最大匹配法:最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描(为提升扫描效率,还可以跟据字数多少设计多个字典,然后根据字数分别从不同字典中进行扫描。下面以“我们在野生动物园玩”详细说明一下这几种匹配方法:(1)正向最大匹配法正向即从前往后取词,从7->1,每次减一个字,直到词典命中或剩下1个单字。第1轮扫描:...原创 2019-03-05 21:40:59 · 549 阅读 · 0 评论 -
【论文】Legal Judgment Prediction via Topological Learning
该论文发表于:EMNLP 2018文章目录摘要1、Introduction2、Related Work2.1 Judgment Prediction2.2 Multi-task Learning(MTL)3、Method3.1 Problem Formulation3.2 DAG Dependencies of Subtasks3.3 Neural Encoder for Fact Descr...原创 2019-09-19 11:14:57 · 2307 阅读 · 0 评论 -
【Python 自然语言处理 第二版】读书笔记2:获得文本语料和词汇资源
文章目录一、获取文本语料库1、古腾堡语料库大量的语言数据或者语料库。一、获取文本语料库1、古腾堡语料库NLTK 包含 古腾堡项目(Project Gutenberg) 电子文本档案的经过挑选的一小部分文本,该项目大约有25,000本免费电子图书。import nltk# 输出语料库中的文件标识符print(nltk.corpus.gutenberg.fileids())...原创 2019-05-23 15:17:14 · 1722 阅读 · 0 评论 -
【Python 自然语言处理 第二版】读书笔记1:语言处理与Python
文章目录前言语言处理与Python一、语言计算:文本和单词1、NLTK入门(1)安装(nltk、nltk.book)(2)搜索文本(3)词汇计数2、列表与字符串(1)列表操作(2)索引列表(3)变量(4)字符串二、计算语言:简单的统计1、频率分布2、细粒度的选择词(1)选出长度大于15的单词(2)频繁出现的长词(3)提取词汇中的次对(4)提取文本中的频繁出现的双连词3、计数其他东西(1)文本中词长...原创 2019-05-21 17:16:23 · 740 阅读 · 0 评论 -
【数据竞赛】“达观杯”文本智能处理挑战赛3
学习word2vec词向量原理并实践,用来表示文本要求:分享学习笔记和代码,【只有代码的等于没有完成】参考资料1)CS224:https://www.bilibili.com/video/av41393758/?p=22)https://github.com/Heitao5200/DGB/blob/master/feature/feature_code/train_word2vec.py...原创 2019-04-09 20:28:23 · 738 阅读 · 0 评论 -
【数据竞赛】“达观杯”文本智能处理挑战赛4
一、逻辑回归逻辑回归(Logistic Regression, LR)是一种常用的处理两类分类问题的线性模型。1、概率估计LR 模型计算输入特征的加权和(加上偏差项),之后将中间结果输入 logistic() 函数进行二次加工后输出。逻辑回归模型的概率估计(向量形式)p^=hθ(x)=σ(θT⋅x)\hat{p}=h_\theta(x)=\sigma(\theta^T·x)p^=hθ...原创 2019-04-11 21:32:35 · 163 阅读 · 0 评论 -
【NLP】Task5:神经网络基础
文章目录一、前馈神经网络二、简单的神经网络(tensorflow)前馈神经网络、网络层数、输入层、隐藏层、输出层、隐藏单元、激活函数的概念。感知机相关;利用tensorflow等工具定义简单的几层网络(激活函数sigmoid),递归使用链式法则来实现反向传播。激活函数的种类以及各自的提出背景、优缺点。(和线性模型对比,线性模型的局限性,去线性化)深度学习中的正则化(参数范数惩罚:L1正则...原创 2019-03-28 22:14:36 · 1279 阅读 · 0 评论 -
【NLP】Task3:特征选择
TF-IDF原理。文本矩阵化,使用词袋模型,以TF-IDF特征值为权重。(可以使用Python中TfidfTransformer库)互信息的原理。使用第二步生成的特征矩阵,利用互信息进行特征筛选。参考文本挖掘预处理之TF-IDF:https://www.cnblogs.com/pinard/p/6693230.html使用不同的方法计算TF-IDF值:https://www.jian...原创 2019-03-26 20:20:31 · 397 阅读 · 1 评论 -
【NLP实战】Task1 数据集探索
一、数据集1、THUCNews数据集传送门链接: https://pan.baidu.com/s/1lziUTaCF7VfnuAKXrGftTw 提取码: saag概述本数据集是清华NLP组提供的THUCNews新闻文本分类数据集的一个子集(原始的数据集大约74万篇文档,训练起来需要花较长的时间)。本次训练使用了其中的10个分类(体育, 财经, 房产, 家居, 教育, 科技, 时尚, ...原创 2019-03-26 09:17:21 · 1081 阅读 · 1 评论 -
典型分类器评价指标及实例
一、概述在NLP中,经常需要使用机器学习的分类器。衡量分类器最常见的指标:准确率与召回率、准确度与F1-Score以及ROC与AUC。注意:本文以 Scikit-Learn 为环境二、实验数据1、导入相关库from sklearn.cross_validation import train_test_splitfrom sklearn.datasets import make_c...原创 2019-09-29 16:34:51 · 1427 阅读 · 2 评论