JSON
JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。它基于 ECMAScript (欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。
python 例子:
#P69 JSON
import json
from pprint import pprint
with open('jsondata.json') as file:
data = json.load(file)
pprint(data)
运行结果:
{'Languages': [{'Language': 'Python', 'Version': '0'},
{'Language': 'PHP', 'Version': '5'}],
'Name': 'John"the fictional" Doe',
'OS': {'Linux': 'Ubuntu 14', 'Microsoft': 'Windows 10'},
'location': {'Street': 'Some Street', 'Suburb': 'Some Suburb'}}
自然语言
NLTK:Natural Language Toolkit
NLTK是一个开源的项目,包含:Python模块,数据集和教程,用于NLP的研究和开发 。 NLTK由Steven Bird和Edward Loper在宾夕法尼亚大学计算机和信息科学系开发。
NLTK包括图形演示和示例数据。其提供的教程解释了工具包支持的语言处理任务背后的基本概念。
京东 python 自然语言没必要买,是基于python2.7,出版就过时了;
百度NLTK,自然语言的根据地。大量东西公开,免费。
虚拟机中
mltk_data 好几个G;
中文还有个分词的工具单独安装,是网上好多中国人做的,jieba 0.42.1
#P70 NLTK
import nltk
#Use this first, just once for Book
#nltk.download()
#nltk.download() 会弹出来,下载很对东西,往往下不下来,因为qiao掉了。(需要fanqiang)。
虚拟机下载了一部分。
下载失败
可以想办法下载,百度网盘之类的下载之后解压放过去。
文集 Brown
#P71 Brown
from nltk.corpus import brown
cat=brown.categories()
print(cat)