博客专栏  >  互联网   >  自然语言处理

自然语言处理

一些自然语言处理的知识

关注
27 已关注
15篇博文
  • tensorflow笔记:使用tf来实现word2vec

    时隔若干个月,又绕到了word2vec。关于word2vec的原理我就不叙述了,具体可见word2vec中的数学,写的非常好。 我后来自己用Python实现了一遍word2vec,过程写在自己动手写...

    2017-01-05 14:50
    9082
  • THUCTC源码解读(一)

    THUCTC(THU Chinese Text Classification),是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动实现用户自定义的文本分类语料的训练、评测、分类功能。TH...

    2016-05-16 23:08
    3543
  • THUCTC源码解读(二)

    在通过Demo初步了解了THUCTC的用法以后,开始深入探究THUCTC的结构,了解实现方式。只要了解了代码结构,才能了解背后的原理和优化方法,也方便在此基础上做出自己的改进。THUCTC的主要原理首...

    2016-05-18 21:24
    1915
  • THUCTC源码解读(三)

    Term类Term也是一个非常简单的类,是文档向量(DocumentVector)的基本组成部分,一个Term表示词典中的一个词。 存储的变量只有id和weight, id表示该Term代表的词在词...

    2016-05-22 11:53
    1455
  • THUCTC源码解读(四)

    LiblinearTextClassifier我认为LiblinearTextClassifier是整个分类器中最核心的模块,实现了训练,分类等功能。LiblinearTextClassifier实现...

    2016-05-23 21:15
    2304
  • 自己动手写word2vec (一):主要概念和流程

    word2vec 是 Google 于 2013 年开源推出的一个用于获取词向量(word vector)的工具包,它简单、高效,因此引起了很多人的关注。我在看了@peghoty所写的《word2ve...

    2016-07-11 22:35
    15265
  • 自己动手写word2vec (二):统计词频

    在我之前写的word2vec的大概流程中,第一步的分词使用jieba来实现,感觉效果还不错。第二步. 统计词频统计词频,相对来讲比较简单一些,主要在Python自带的Counter类基础上稍作改进。值...

    2016-07-14 10:55
    6902
  • 自己动手写word2vec (三):构建Huffman树

    这一部分将解释Huffman树的构造方法,并说明了如何根据Huffman树来产生对应的二进制编码。这部分的代码放在HuffmanTree.py中Huffman树的构造Huffman树的构造方法与Huf...

    2016-07-16 17:38
    7249
  • 自己动手写word2vec (四):CBOW和skip-gram模型

    CBOW和skip-gram应该可以说算是word2vec的核心概念之一了。这一节我们就来仔细的阐述这两个模型。其实这两个模型有很多的相通之处,所以这里就以阐述CBOW模型为主,然后再阐述skip-g...

    2016-07-18 16:54
    31613
  • word2vec 中的数学原理详解-基于 Negative Sampling 的模型

    转自:http://blog.csdn.net/itplus/article/details/37998797我之前写的是基于Hierarchical Softmax的模型。而在word2vec中,还...

    2016-07-20 17:35
    4051
  • 语义分析的一些方法(一)

    原文转自这里语义分析,本文指运用各种机器学习方法,挖掘与学习文本、图片等的深层次概念。 wikipedia上的解释:In machine learning, semantic analysis of...

    2016-08-03 18:49
    1702
  • 语义分析的一些方法(二)

    本文转自这里2 文本语义分析前面讲到一些文本基本处理方法。一个文本串,对其进行分词和重要性打分后(当然还有更多的文本处理任务),就可以开始更高层的语义分析任务。2.1 Topic Model首先介绍主...

    2016-08-04 11:22
    1581
  • gensim使用方法以及例子

    gensim是一个python的自然语言处理库,能够将文档根据TF-IDF, LDA, LSI 等模型转化成向量模式,以便进行进一步的处理。此外,gensim还实现了word2vec功能,能够将单词转...

    2016-08-16 10:58
    10695
  • 使用gensim和sklearn搭建一个文本分类器(一):流程概述

    总的来讲,一个完整的文本分类器主要由两个阶段,或者说两个部分组成:一是将文本向量化,将一个字符串转化成向量形式;二是传统的分类器,包括线性分类器,SVM, 神经网络分类器等等。之前看的THUCTC的技...

    2016-09-04 18:19
    6652
  • 使用gensim和sklearn搭建一个文本分类器(二):代码和注释

    在之前的 使用gensim和sklearn搭建一个文本分类器(一):流程概述 中,叙述了一个使用lsi来对文本进行向量化,再使用线性核svm进行分类的文本分类器。在这篇文章中,沿着之前的思路,提供了该...

    2016-09-12 17:49
    3813

img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部