自然语言处理学习笔记
文章平均质量分 84
腾阳
全网同名,欢迎关注,文章首发公号
展开
-
自然语言处理学习笔记1:自然语言处理介绍
给外行能看懂的科普:这就叫自然语言处理如何向文科同学科普自然语言处理(NLP)? 刘知远,NLPer前几年曾经马少平老师的引荐,为某科普图书写过一篇短文介绍自然语言处理。如果只是介绍NLP的概念、任务和挑战,应该可以参考这篇小文。原文如下,仅供参考。自然语言处理Natural Language Processing一、什么是自然语言处理 简单地说,自然语言处理(Natural Language P...转载 2018-05-19 21:42:49 · 3549 阅读 · 0 评论 -
自然语言处理爬过的坑:doc2bow expects an array of unicode tokens on input, not a single string
原代码:title = response.meta['title'] #print title content = response.meta['content'] #print content raw_documents = [] raw_documents.append(title) raw_doc...原创 2018-05-24 10:03:33 · 11636 阅读 · 5 评论 -
自然语言处理学习笔记7:特征选择方法
当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除移除低方差法外,本文介绍的其他方法均从相关性考虑。根据特征选择的形式又可以将特征选择方...转载 2018-06-02 21:48:51 · 3339 阅读 · 1 评论 -
自然语言处理学习笔记6:向量距离之高级的词向量表示
斯坦福大学在三月份开设了一门“深度学习与自然语言处理”的课程:CS224d: Deep Learning for Natural Language Processing,授课老师是青年才俊 Richard Socher,以下为相关的课程笔记。第三讲:高级的词向量表示(Advanced word vector representations: language models, softmax, si...转载 2018-06-02 21:46:41 · 1748 阅读 · 1 评论 -
自然语言处理学习笔记5:去重处理之使用SimHash进行海量文本去重
摘要: 传统的Hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上仅相当于伪随机数产生算法。传统的hash算法产生的两个签名,如果原始内容在一定概率下是相等的;如果不相等,除了说明原始内容不相等外,不再 ...工具 算法 存储 测试 数据结构阅读目录1. SimHash与传统hash函数的区别2. SimHash算法思想3. SimHash流程实现4. SimHash签名距离计算5....转载 2018-06-02 21:42:24 · 1311 阅读 · 1 评论 -
AI&BigData five:基于爬虫抓取的语料,使用gensim建设dictionary、corpus、tfidf_model并保存成文件两种方法
爬虫抓取了想要的文本之后,接下来就是对爬虫爬取的所有文本进行自然语言处理。在这里提供两个思路。1.直接在爬虫文件中添加自然语言处理的函数,功能是对爬取的文章进行自然语言处理。2.先保存爬虫爬取的所有文件到一个指定的文件夹,新建一个自然语言处理程序进行遍历所有的文件夹中的文本,然后打开相应的文本进行处理。两种方法无所谓好坏,看个人需求吧。我是偏向在爬虫中添加,简单快捷,不容易出错。一些基本过程可以参...原创 2018-05-26 09:11:12 · 3578 阅读 · 0 评论 -
自然语言处理爬过的坑:基于爬虫抓取的语料,使用gensim建设dictionary、corpus、tfidf_model并保存成文件
# 生成字典和向量语料 dictionary = corpora.Dictionary([corpora_documents]) #print(dictionary) # print 'dfs:', dictionary.dfs # 字典词频,{单词id,在多少文档中出...原创 2018-05-26 08:44:20 · 5232 阅读 · 4 评论 -
自然语言处理爬过的坑:使用python遍历所有的文件夹中的所有文本.标准库OS的常用函数总结大全
# -*- coding: utf-8 -*-import osimport codecsdef search(filepath):#遍历filepath下所有文件,包括子目录 files = os.listdir(filepath) for file in files: file_text = os.path.join(filepath,file) ...原创 2018-05-26 08:11:02 · 1069 阅读 · 0 评论 -
自然语言处理学习笔记4:空间向量模型
向量空间模型(VSM:Vector Space Model)由Salton等人于20世纪70年代提出,并成功地应用于著名的SMART文本检索系统。把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量...转载 2018-05-19 23:00:50 · 3045 阅读 · 0 评论 -
自然语言处理学习笔记3:关键词抽取
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明。谢谢!1 简介关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依然可以在论文中看到关键词这一项。除了这些,关键词还可以在文本聚类、分类、自动摘要等领域中有着...转载 2018-05-19 22:50:32 · 3863 阅读 · 2 评论 -
自然语言处理学习笔记2:分词工具及分词原理
中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。作用:...转载 2018-05-19 22:39:55 · 5135 阅读 · 0 评论 -
自然语言处理爬过的坑:使用python结巴对中文分词并且进行过滤,建立停用词。常见的中文停用词表大全
原代码: def natural_language_processing(self,response): #对所抓取的预料进行自然语言处理 title = response.meta['title'] #print title content = response.meta['content'] #print cont...原创 2018-05-24 10:15:44 · 13585 阅读 · 2 评论