自然语言处理 -- 中文句子分割

pom.xml引入jar

      <dependency>
          <groupId>edu.stanford.nlp</groupId>
          <artifactId>stanford-corenlp</artifactId>
          <version>3.9.2</version>
      </dependency>
      <dependency>
          <groupId>edu.stanford.nlp</groupId>
          <artifactId>stanford-corenlp</artifactId>
          <version>3.9.2</version>
          <classifier>models</classifier>
      </dependency>
      <dependency>
          <groupId>edu.stanford.nlp</groupId>
          <artifactId>stanford-corenlp</artifactId>
          <version>3.9.2</version>
          <classifier>models-chinese</classifier>
      </dependency>

加载模型和初始化

        Properties properties = new Properties();
        /**
         * Pipeline options - lemma is no-op for Chinese but currently needed because coref demands it (bad old requirements system)
         */
        properties.setProperty("annotators", "tokenize,ssplit,pos,lemma,ner,parse,depparse,coref,kbp,quote");
        /**
         * segment
         */
        properties.setProperty("tokenize.language", "zh");
        properties.setProperty("segment.model", "edu/stanford/nlp/models/segmenter/chinese/ctb.gz");
        properties.setProperty("segment.sighanCorporaDict", "edu/stanford/nlp/models/segmenter/chinese");
        properties.setProperty("segment.serDictionary", "edu/stanford/nlp/models/segmenter/chinese/dict-chris6.ser.gz");
        properties.setProperty("segment.sighanPostProcessing", "true");
        /**
         * sentence split
         */
        properties.setProperty("ssplit.boundaryTokenRegex", "[.。]|[!?!?,;,]+");
        /**
         * pos
         */
        properties.setProperty("pos.model", "edu/stanford/nlp/models/pos-tagger/chinese-distsim/chinese-distsim.tagger");
        /**
         * ner
         */
        properties.setProperty("ner.language", "chinese");
        properties.setProperty("ner.model", "edu/stanford/nlp/models/ner/chinese.misc.distsim.crf.ser.gz");
        properties.setProperty("ner.applyNumericClassifiers", "true");
        properties.setProperty("ner.useSUTime", "false");
        properties.setProperty("ner.fine.regexner.mapping", "edu/stanford/nlp/models/kbp/chinese/gazetteers/cn_regexner_mapping.tab");
        properties.setProperty("ner.fine.regexner.noDefaultOverwriteLabels", "");

		/**
		* parse
		*/
        properties.setProperty("parse.model", "edu/stanford/nlp/models/srparser/chineseSR.ser.gz");

       /** 
       * depparse
       */
        properties.setProperty("depparse.model", "edu/stanford/nlp/models/parser/nndep/UD_Chinese.gz");
        properties.setProperty("depparse.language", "chinese");

        /**
         * entitylink
         */
        properties.setProperty("entitylink.wikidict", "edu/stanford/nlp/models/kbp/chinese/wikidict_chinese.tsv.gz");

        StanfordCoreNLP pipline = new StanfordCoreNLP(properties);

分句

        String text = "乔·史密斯出生于加利福尼亚。2017年夏天,他去了法国巴黎。他的航班于2017年7月10日下午3点起飞。第一次吃了一些蜗牛后,乔说:“太好吃了!”他寄了一张明信片给他的妹妹简·史密斯,他打了他的女儿汤姆。听了乔的旅行后,简决定有一天去法国。";
        // make an example document
        CoreDocument doc = new CoreDocument(text);
        // annotate the document
        pipline.annotate(doc);
        List<CoreSentence> sentences = doc.sentences();
        System.out.println("-----------分句-------------");
        for (int i = 0; i < sentences.size(); i++) {
            CoreSentence sentence = sentences.get(i);
            System.out.println(sentence.text());
            System.out.println("************************");
        }
        

在这里插入图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
基于Python的中文自然语言处理可以分为多个方面,包括文本处理、文本分词、词性标注、命名实体识别、句法分析、情感分析等。 首先,文本处理是中文自然语言处理的基础,可以使用Python中的字符串处理函数对中文文本进行清洗、分割和合并等操作,以便后续处理。 其次,文本分词是中文自然语言处理的重要环节,可以利用Python中的jieba库对中文文本进行分词,将文本按词语进行划分。 词性标注则是在文本分词的基础上,对每个词语进行词性标记,可以利用Python中的nltk库或Stanford CoreNLP等工具实现中文文本的词性标注。 命名实体识别是指在文本中识别出具有特定意义的实体,如人名、地名、组织机构名等,可以利用Python中的HanLP或LTP等工具进行中文文本的命名实体识别。 句法分析是对文本中的句子进行语法分析,分析句子中各个成分之间的关系,可以利用Python中的Stanford CoreNLP或LTP等工具进行中文文本的句法分析。 最后,情感分析是对文本中的情感倾向进行分析,可以利用Python中的情感分析库进行中文文本的情感分析,了解文本中所表达的情感态度。 综上所述,基于Python的中文自然语言处理涵盖了文本处理、文本分词、词性标注、命名实体识别、句法分析、情感分析等多个方面,可以有效地对中文文本进行语言处理和分析。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值