自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 python自然语言处理-学习笔记(三)之文本相似度计算

'''文本相似度计算方法'''#1,编辑距离计算'''是指两个字符串之间,由一个转成另一个所需的最少操作次数,如果它们就 距离越大,说明它们越不同,预科的编辑操作包括将一个字符替换成另一个字符,插入一个字符删除一个字符'''import distanceprint(distance.levenshtein('setting','string')) #2#第一步在s和t之...

2019-01-24 14:47:16 2236

原创 jieba模块的主要功能

import jiebaimport jieba.analyseimport jieba.posseg as pseg#jieba的主要功能#1,分词text = '''1月17日,上虞区委书记陶关锋在全区机构改革动员大会上宣布,国家级杭州湾上虞经济技术开发区和省级上虞经济开发区两大开发区正式整合。开发区将更加聚焦规划、建设、招商等“头部”职能,全力打造“万亩千亿”产业大平台。这是一项...

2019-01-22 17:58:21 2392

原创 python自然语言处理-学习笔记(二)之nltk包常用的功能

1,语料库的获取>>>import nltk>>>nltk.corpus.gutenberg.fileids()['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt', 'bible-kjv.txt', 'blake-poems.txt', 'bryant-stories.txt...

2019-01-21 17:29:37 776

原创 python自然语言处理-学习笔记(一)之nltk入门

nltk学习第一章一,入门1,nltk包的导入和报的下载import nltknltk.download() (eg: nltk.download(‘punkt’),也可以指定下载那个包)2,book图书集,是一些数据,from nltk.book import **** Introductory Examples for the NLTK Book ***Loadin...

2019-01-17 16:33:34 1086

原创 虚拟机安装单机python+spark环境

python环境Linux系统是自带的,你可以输入python来查看版本(python2版本),输入python3(python3版本)查看。spark安装前提是要下载压缩包,根据个人需求在官网下载压缩包,放到虚拟机得 /home/用户 目录下(我下的是spark-2.1.1-bin-hadoop2.7.tgz这个包)然后开始解压tar -xzvf spark-2.1.1-bin-hadoo...

2019-01-03 17:14:41 1002 1

原创 基于python+spark环境下的虚拟机中安装Java

虚拟机下安装Java环境,首先得先下载jdk压缩包,这个可以到官网上下载,在这里就不再阐述了。下一步就是把下载下来的压缩包移动到虚拟机下,建议直接移动到home/用户名/ 目录下,也就是终端打开之后默认目录,然后就是解压,命令是我下载的是jdk-8u101-linux-x64.tar.gz这个版本,可以根据个人需求下载sudo tar -zxvf jdk-8u101-linux-x64...

2019-01-03 11:05:27 352

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除