自然语言处理
文章平均质量分 75
江中舟
干掉java,你就是大神
展开
-
浅谈电商类目预测
类目预测原创 2019-11-05 09:19:41 · 3018 阅读 · 2 评论 -
自然语言处理入门读物
自然语言处理入门读物本文目前研二,已经接触自然语言处理有一年的时间(半路出家),下面写一点自己关于自然语言处理的心得(纯属个人见解),先从入门学习开始写吧。书籍-理论篇书籍是人类进步的阶梯,这个一点不假,自己刚开始接触自然语言处理是从吴军老师的的《数学之美》开始的,这里再次感谢吴军老师。这门书写的通俗易懂,内容非常的吸引人,读起来不会感觉枯燥,每次读都会有新的体会。 本书可以作为自然语言处理入门的原创 2016-12-13 19:23:31 · 4163 阅读 · 0 评论 -
word2vect训练
语料库使用搜狗实验室12年的全网新闻数据。 选择相应的下载包,注册搜狗的下载用户就可以下载了。 注册后,搜狗会生成相应的用户名和密码供下载使用。 原始文件大概700M左右,解压以后大概1.5GB 将其解压后得到news_tensite_xml.dat文件tar -zxvf news_tensite_xml.full.tar.gz或unzip news_ten原创 2016-12-19 15:10:04 · 1709 阅读 · 0 评论 -
nltk(1)——常用函数
搜索文本关键词上下文——concordance使用函数concordance可以查找关键词每次的出现,以及连同关键词出现的上下文一起显示。(查看关键词出现的上下文) from nltk.book import * text1.concordance("monstrous") 相似上下文查找——similar使用similar函数可以看到同关键词原创 2016-12-29 21:53:13 · 2341 阅读 · 0 评论 -
nltk(2)——频率分布&词操作
频率分布函数FreqDist函数FreqDist方法获取在文本中每个出现的标识符的频率分布。通常情况下,函数得到的是每个标识符出现的次数与标识符的map映射 标识符 出现次数 are 209 the 660 people 550fdist = FreqDist(text1) fdist FreqDist的常用函原创 2016-12-29 21:54:32 · 6644 阅读 · 0 评论 -
nltk(3)——语料库
NLTK包含众多一系列的语料库,这些语料库可以通过nltk.package 导入使用。每一个语料库可以通过一个叫做“语料库读取器”的工具读取语料库,例如:nltk.corpus每一个语料库都包含许多的文件或者是很多的文档。若要获取这些文件的列表,可以通过语料库的fileids()方法。import nltk.corpus.brown #导入brown语料库brown.fileid原创 2016-12-29 21:55:26 · 7383 阅读 · 0 评论 -
nltk(4)——加工原始语料库
加工原始语料库分词做自然语言处理,一定离不开数据资源,即对数据资源的分析,了解其中潜在的内容。 网络上存在众多的资源,如文本,网页等等。这次写的主要是文本和网页。 1、我们要使用程序获取本地或网络上的资源,从而使众多的资源成为自己的资源 2、如何对资源进行简单的处理,例如标点符号等等,使文本符合我们的要求。 3、编写程序格式化我们想要的输出。电子书查看书中的代码是f原创 2016-12-29 21:56:33 · 2095 阅读 · 0 评论 -
读论文写论文——MEMORY NETWORKS
MEMORY NETWORKS摘要作者说自己提出了一个新的学习模型叫做“memory networks”,模型将推理与“长记忆”组件相结合。使用长记忆组件,可以用其进行推理预测,作者将该模型用于问答系统QA(Question Answering)。介绍——为什么要提出这个模型作者说当前的大多数的机器学习系统,无法自由的对记忆组件进行读写。如果可以无缝的自由读写,那么将大大提高模型的预测、推理能力。比原创 2016-12-31 22:34:35 · 2958 阅读 · 0 评论 -
NER-序列标注
命名实体识别-序列标注标签类型进行命名实体识别时,通常对每个字进行标注。中文为单个字,英文为单词,空格分割。标签类型一般如下:类型说明BBegin,代表实体片段的开始IInternediate,代表实体片段的中间EEnd,代表实体片段的结束SSingle,代表实体片段为单个字OOther,代表字符不为任何实体标注类型这里介绍比较...原创 2019-10-08 18:25:26 · 3830 阅读 · 0 评论