分词概述:
此处主要指中文分词
中文分词(Chinese Word Segmentation,简称cws)
指的是将一个汉字序列(一段话)切分成一个一个单独的词的过程。
分词的作用
中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词或哪些不是词,但如何让计算机也能理解?其处理过程即为分词处理算法。
自然语言处理技术(NLP,Nature Language Process)
什么是自然语言
自然语言即人类的文字、口语,或其它用于沟通交流的形式。
其为是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战。
主要范畴
文本朗读(Text to speech)/语音合成(Speech synthesis)
语音识别(Speech recognition)
中文自动分词(Chinese word segmentation)
词性标注(Part-of-speech tagging)
句法分析(Parsing)
自然语言生成(Natural language generation)
文本分类(Text categorization)
信息检索(Information r