python JSON 自然语言

JSON

JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。它基于 ECMAScript (欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。

python 例子:

#P69  JSON
import json
from pprint import pprint
with open('jsondata.json') as file:
    data = json.load(file)

pprint(data)

运行结果:

{'Languages': [{'Language': 'Python', 'Version': '0'},
               {'Language': 'PHP', 'Version': '5'}],
 'Name': 'John"the fictional" Doe',
 'OS': {'Linux': 'Ubuntu 14', 'Microsoft': 'Windows 10'},
 'location': {'Street': 'Some Street', 'Suburb': 'Some Suburb'}}

自然语言

NLTK:Natural Language Toolkit

NLTK是一个开源的项目,包含:Python模块,数据集和教程,用于NLP的研究和开发 。 NLTK由Steven Bird和Edward Loper在宾夕法尼亚大学计算机和信息科学系开发。

NLTK包括图形演示和示例数据。其提供的教程解释了工具包支持的语言处理任务背后的基本概念。

京东 python 自然语言没必要买,是基于python2.7,出版就过时了;

百度NLTK,自然语言的根据地。大量东西公开,免费。

网址:http://www.nltk.org/

虚拟机中

mltk_data 好几个G;

中文还有个分词的工具单独安装,是网上好多中国人做的,jieba 0.42.1 

#P70  NLTK 
import nltk
#Use this first, just once for Book
#nltk.download()   


#nltk.download()      会弹出来,下载很对东西,往往下不下来,因为qiao掉了。(需要fanqiang)。

虚拟机下载了一部分。

下载失败

 

可以想办法下载,百度网盘之类的下载之后解压放过去。

 

文集 Brown

 

#P71  Brown
from nltk.corpus import brown
cat=brown.categories()
print(cat)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python有多个流行的自然语言处理库,其中最常用的是NLTK和spaCy。这里我以spaCy为例,演示如何将一段话根据名词或者动词进行划分,转变为JSON格式。 首先,你需要安装spaCy库并下载相应的语言模型,可以通过以下命令完成: ``` pip install spacy python -m spacy download en_core_web_sm ``` 接下来,你需要导入spaCy库并加载语言模型: ```python import spacy nlp = spacy.load('en_core_web_sm') ``` 然后,你可以使用`nlp`对象对一段话进行处理,得到一个`Doc`对象。`Doc`对象表示一段文本的处理结果,其中包含了每个单词的各种属性,如词性、依存关系等。 ```python doc = nlp('I love to play soccer with my friends on weekends.') ``` 接下来,你可以遍历`Doc`对象中的每个单词,找出其中的名词和动词,并将它们保存到一个Python字典中。可以使用以下代码实现: ```python data = { 'nouns': [], 'verbs': [] } for token in doc: if token.pos_ == 'NOUN': data['nouns'].append(token.text) elif token.pos_ == 'VERB': data['verbs'].append(token.text) ``` 在上面的代码中,我们遍历了`doc`中的每个单词,如果单词的词性为名词,就将其添加到`data['nouns']`列表中;如果单词的词性为动词,就将其添加到`data['verbs']`列表中。 最后,你可以使用PythonJSON库将`data`字典转换为JSON格式的字符串,并将其写入文件中。可以使用以下代码实现: ```python import json json_str = json.dumps(data, ensure_ascii=False) with open('data.json', 'w', encoding='utf-8') as f: f.write(json_str) ``` 在上面的代码中,我们使用PythonJSON库将`data`字典转换为JSON格式的字符串,并将其写入文件中。 总结一下,将一段话根据名词或者动词进行划分,转变为JSON格式的大致流程如下: 1. 导入spaCy库并加载语言模型; 2. 使用`nlp`对象对一段话进行处理,得到一个`Doc`对象; 3. 遍历`Doc`对象中的每个单词,找出其中的名词和动词,并将它们保存到一个Python字典中; 4. 使用PythonJSON库将字典转换为JSON格式的字符串,并将其写入文件中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值