自然语言处理
静水流深_Eminem
自然语言处理/机器学习/深度学习/计算机视觉
展开
-
自然语言处理-简介
写这个系列的原因是为了介绍下NLP在工业界的应用,顺便总结下工作。先做个简单介绍。Natural language processing (NLP) is a field of computer science, artificial intelligence and computational linguistics concerned with the interactions between原创 2017-10-19 15:39:31 · 1053 阅读 · 0 评论 -
NLP中Sequence-to-Sequence model代码详解
在NLP领域,sequence to sequence模型有很多应用,比如机器翻译、自动应答机器人等。在看懂了相关的论文后,我开始研读TensorFlow提供的源代码,刚开始看时感觉非常晦涩,现在基本都弄懂了,我在这里主要介绍Sequence-to-Sequence Models用到的理论,然后对源代码进行详解。sequence-to-sequence模型在NLP中最为常见的模型是lang...转载 2018-03-19 17:19:37 · 4521 阅读 · 0 评论 -
如何使用docker 对容器资源限制
在使用 docker 运行容器时,一台主机上可能会运行几百个容器,这些容器虽然互相隔离,但是底层却使用着相同的 CPU、内存和磁盘资源。如果不对容器使用的资源进行限制,那么容器之间会互相影响,小的来说会导致容器资源使用不公平;大的来说,可能会导致主机和集群资源耗尽,服务完全不可用。docker 作为容器的管理者,自然提供了控制容器资源的功能。正如使用内核的 namespace 来做容器之间的隔...转载 2018-02-25 11:24:52 · 1840 阅读 · 0 评论 -
Celery的使用
Celery是一个专注于实时处理和任务调度的分布式任务队列。所谓任务就是消息,消息中的有效载荷中包含要执行任务需要的全部数据。使用Celery的常见场景如下:Web应用。当用户触发的一个操作需要较长时间才能执行完成时,可以把它作为任务交给Celery去异步执行,执行完再返回给用户。这段时间用户不需要等待,提高了网站的整体吞吐量和响应时间。定时任务。生产环境经常会跑一些定时任务。假如你有...转载 2018-03-16 10:52:16 · 451 阅读 · 0 评论 -
聊一聊自然语言理解
语义理解(NLU)仍然是学界的一个难题!给你一篇文章或者一个句子,人们在理解这些句子时,头脑中会进行上下文的搜索和知识联想。通常情况下,人在理解语义时头脑中会搜寻与之相关的知识。知识图谱的创始人人为,构成这个世界的是实体,而不是字符串,这从根本上改变了过去搜索的体系。语义理解其实是基于知识,概念和这些概念间的关系。人们在解答问题时,往往会讲述与这个问题相关的知识,这是语义理解的过程。这种机制完全不同原创 2018-03-09 14:57:47 · 924 阅读 · 0 评论 -
Docker——容器 镜像
第一部分:Docker镜像的基本知识 1.1 什么是Docker镜像 从整体的角度来讲,一个完整的Docker镜像可以支撑一个Docker容器的运行,在 Docker容器运行过程中主要提供文件系统视角。例如一个ubuntu:14.04的镜像,提供了一个基本的ubuntu:14.04的发行版,当然此 镜像是不包含操作系统Linux内核的。说到此,可能就需要注意一下,linux内核和ubunt转载 2018-02-01 15:40:50 · 433 阅读 · 0 评论 -
Ubuntu /Spark单机环境搭建
安装与配置因为机器学习平台的需要特意学习了有关spark的相关内容。这一小节主要是记录下在Ubuntu 14.04下搭建Spark单机环境的过程。这个过程主要有四个部分:安装Java安装Scala安装Spark安装sbt安装Java下载Java SE,然后解压wget http://download.oracle.com/otn-pub/java/jdk/8u112-b15/jdk-8u1转载 2017-12-07 15:44:27 · 685 阅读 · 1 评论 -
自然语言处理-搭建文本分类器
一个完整的文本分类器主要由两个阶段,:一是将文本向量化,将一个字符串转化成向量形式;二是将向量喂到分类器,包括SVM, CNN,LSTM等等。这边做的项目其实阶段用的是 tf-idf 来进行文本向量化,使用卡方校验(chi-square)来降低向量维度,使用liblinear(采用线性核的svm) 来进行分类。而这里所述的文本分类器,使用lsi (latent semantic analysis,原创 2017-10-27 17:04:33 · 1213 阅读 · 0 评论 -
自然语言处理-中文分词方法总结
中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性、句法树等模块的效果。当然分词只是一个工具,场景不同,要求也不同。前人做的工作,已注明出处,我觉得相对很完整。在人机自然语言交互中,成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文语言。竹间转载 2017-10-27 16:21:24 · 5413 阅读 · 0 评论 -
文本分类
IntroductionText classification is the task of assigning a sentence or document an appropriate category. The categories depend on the chosen dataset and can range from topics.The mainstream classifi...原创 2019-08-22 17:34:42 · 560 阅读 · 0 评论