- 博客(6)
- 收藏
- 关注
原创 python自然语言处理-学习笔记(三)之文本相似度计算
'''文本相似度计算方法'''#1,编辑距离计算'''是指两个字符串之间,由一个转成另一个所需的最少操作次数,如果它们就 距离越大,说明它们越不同,预科的编辑操作包括将一个字符替换成另一个字符,插入一个字符删除一个字符'''import distanceprint(distance.levenshtein('setting','string')) #2#第一步在s和t之...
2019-01-24 14:47:16 2236
原创 jieba模块的主要功能
import jiebaimport jieba.analyseimport jieba.posseg as pseg#jieba的主要功能#1,分词text = '''1月17日,上虞区委书记陶关锋在全区机构改革动员大会上宣布,国家级杭州湾上虞经济技术开发区和省级上虞经济开发区两大开发区正式整合。开发区将更加聚焦规划、建设、招商等“头部”职能,全力打造“万亩千亿”产业大平台。这是一项...
2019-01-22 17:58:21 2392
原创 python自然语言处理-学习笔记(二)之nltk包常用的功能
1,语料库的获取>>>import nltk>>>nltk.corpus.gutenberg.fileids()['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt', 'bible-kjv.txt', 'blake-poems.txt', 'bryant-stories.txt...
2019-01-21 17:29:37 776
原创 python自然语言处理-学习笔记(一)之nltk入门
nltk学习第一章一,入门1,nltk包的导入和报的下载import nltknltk.download() (eg: nltk.download(‘punkt’),也可以指定下载那个包)2,book图书集,是一些数据,from nltk.book import **** Introductory Examples for the NLTK Book ***Loadin...
2019-01-17 16:33:34 1086
原创 虚拟机安装单机python+spark环境
python环境Linux系统是自带的,你可以输入python来查看版本(python2版本),输入python3(python3版本)查看。spark安装前提是要下载压缩包,根据个人需求在官网下载压缩包,放到虚拟机得 /home/用户 目录下(我下的是spark-2.1.1-bin-hadoop2.7.tgz这个包)然后开始解压tar -xzvf spark-2.1.1-bin-hadoo...
2019-01-03 17:14:41 1002 1
原创 基于python+spark环境下的虚拟机中安装Java
虚拟机下安装Java环境,首先得先下载jdk压缩包,这个可以到官网上下载,在这里就不再阐述了。下一步就是把下载下来的压缩包移动到虚拟机下,建议直接移动到home/用户名/ 目录下,也就是终端打开之后默认目录,然后就是解压,命令是我下载的是jdk-8u101-linux-x64.tar.gz这个版本,可以根据个人需求下载sudo tar -zxvf jdk-8u101-linux-x64...
2019-01-03 11:05:27 352
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人