Python自然语言处理
Jack_Kuo
https://github.com/JackKuo666
展开
-
【NLP挑战赛】:1、基于sklearn的train数据拆分为train&dev
如题,在训练一些模型的时候,只有train数据,需要我们手动拆分为train&dev,来进行模型的验证。这里使用一个sklearn的简单方法。import loggingimport pandas as pdfrom sklearn.model_selection import train_test_splitlogging.basicConfig(level=logging.INFO, format='%(asctime)-15s %(levelname)s: %(message)s')原创 2021-08-12 10:50:37 · 408 阅读 · 0 评论 -
【AllenNLP学习笔记】0.安装
AllenNLP学习笔记1.安装1.1 创建 Conda environment with Python 3.6 conda create -n allennlp python=3.61.2 打开allennlp环境 source activate allennlp1.3 使用pip安装allennlp依赖和包pip install allennlp测试直接终端...原创 2019-07-13 23:00:53 · 735 阅读 · 0 评论 -
【Python自然语言处理】读书笔记:第七章:从文本提取信息
本章原文:https://usyiyi.github.io/nlp-py-2e-zh/7.htmlnotebook 版:https://github.com/JackKuo666/Python_nlp_notes1.我们如何能构建一个系统,从非结构化文本中提取结构化数据如表格?2.有哪些稳健的方法识别一个文本中描述的实体和关系?3.哪些语料库适合这项工作,我们如何使用它们来训练和评估我们的...原创 2019-05-28 20:40:20 · 3495 阅读 · 4 评论 -
【Python自然语言处理】读书笔记:第六章:学习分类文本
原文:https://usyiyi.github.io/nlp-py-2e-zh/6.htmlnotebook 版本请看我的gihub仓库:https://github.com/JackKuo666/Python_nlp_notes时态和主题:以-ed结尾的词往往是过去时态动词。频繁使用will是新闻文本的暗示。这些可观察到的模式——词的结构和词频——恰好与特定方面的含义关联,如时态和主题...原创 2019-05-22 21:06:19 · 2600 阅读 · 0 评论 -
【Python自然语言处理】读书笔记:第五章:分类和标注词汇
jupyter 版请见我的github:https://github.com/JackKuo666/Python_nlp_notes【Python自然语言处理】读书笔记:第五章:分类和标注词汇本章原文:https://usyiyi.github.io/nlp-py-2e-zh/5.html本章的目的是要回答下列问题:1. 什么是词汇分类,在自然语言处理中它们是如何使用?2. 一个好的存...原创 2019-05-20 19:56:08 · 1567 阅读 · 0 评论 -
【Python自然语言处理】读书笔记:第四章:编写结构化程序
4 编写结构化程序4.1 回到基础1、赋值:列表赋值是“引用”,改变其中一个,其他都会改变foo = ["1", "2"]bar = foofoo[1] = "3"print(bar)['1', '3']empty = []nested = [empty, empty, empty]print(nested)nested[1].append("3")print(nes...原创 2019-05-04 21:05:12 · 1916 阅读 · 0 评论 -
【Python自然语言处理】读书笔记:第一章:语言处理与Python
原书:《Python自然语言处理》:https://usyiyi.github.io/nlp-py-2e-zh/语言处理与Python原文:https://usyiyi.github.io/nlp-py-2e-zh/1.html1.NLTK入门1.NKLT的安装,nltk.book的安装2.搜索文本text1.concordance("monstrous") # 搜索文本text1中含...原创 2019-04-19 22:41:17 · 447 阅读 · 0 评论 -
【Python自然语言处理】读书笔记:第二章:获得文本语料和词汇资源
1 获取文本语料库1.1 古腾堡语料库>>> for fileid in gutenberg.fileids():>... num_words = len(gutenberg.words(fileid))>... num_vocab = len(set(w.lower() for w in gutenberg.words(fileid)))&...原创 2019-04-22 21:31:19 · 663 阅读 · 0 评论 -
【Python自然语言处理】读书笔记:第三章:处理原始文本
本章原文链接:https://usyiyi.github.io/nlp-py-2e-zh/3.html3 处理原始文本import nltk, re, pprintfrom nltk import word_tokenize3.1 从网络和硬盘访问文本1、从网络上下载文本from urllib import requesturl = "https://www.gutenberg.o...原创 2019-04-25 21:56:45 · 2368 阅读 · 0 评论