- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 aardio遍历字符串
import console;var name = "张三是个好人" // utf-8编码// console.log(string.getUtf(name)) 这里测试返回“8”,确实是utf-8var a = string.split(name) //先转换成字符数组,再遍历for i in a { console.log(a[i])}console.pause(true);...
2021-07-10 14:12:01 647
翻译 用Python进行自然语言处理-2. Accessing Text Corpora and Lexical Resources
1. 处理文本语料库1.1 古腾堡语料库这是一个电子书语料库,目前提供49,000本免费电子书。 我们可以看看nltk里集成了多少电子书:>>> import nltk>>> nltk.corpus.gutenberg.fileids()['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt', 'bible-kjv.txt
2015-07-27 16:59:18 746
翻译 用Python进行自然语言处理-1. Language Processing and Python
《用Python进行自然语言处理》是一本结合了自然语言处理和Python知识的入门书籍,现在书籍正在出第二版,预计2016年完成。第二版是与Python 3配套的,很多地方都要修改。附上书籍原地址链接:《用Python进行自然语言处理》安装过程和语料下载就不说了,这里直接开始实战:1. 查找文本1.1 用文本的concordance方法查找某个词。当然首先要from nltk.book import
2015-07-27 15:41:57 978
原创 HMM最大匹配分词算法(Python)
正向最大匹配算法是我国最早提出的解决中文分词问题的算法,因其简单易操作,至今仍作为机器分词的粗分算法,在今天看来,这种算法的准确率远不够高,无法达到令人满意的要求。这只是一次练习。待切分文本是: 我和你共同创造美好的新生活词典: 共同,创造,美好,的,新,生活预期分词效果: 我 和 你 共同 创造 美好 的 新 生活# Python 3.4.3lexicon = ('共同','创造','美好'
2015-06-29 15:49:03 1922
原创 汉字字频统计程序(Python版+C语言版)
汉字字频统计程序(Python版+C语言版)用Python和C语言写了一个统计汉字字频的小程序,作为笔记,以供借鉴。
2015-06-29 15:19:46 3888 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人