python 自然语言处理
文章平均质量分 72
459817216
在读硕士,研究方向机器学习
展开
-
python3.X 自然语言处理基础知识
import nltk nltk.download()#下载nltk语料库如果没有安装nltk,请在cmd下用批 pip install nltk进行安装 from nltk.book import * ###搜索文本 #搜索单词 text1.concordance("monstrous") text2.concordance("affection") text3.原创 2017-11-22 14:14:57 · 1204 阅读 · 0 评论 -
python3.x如何从互联网获取想要的文章,及转化为nltk可以处理的文本
from urllib.request import urlopen from bs4 import BeautifulSoup from nltk import word_tokenize import nltk #2种方式解析HTML中的文本 url = "http://news.bbc.co.uk/2/hi/health/2284783.stm" html = urlopen(u原创 2017-12-13 11:12:31 · 551 阅读 · 0 评论 -
python3.x正则表达式的含义及使用
import re import nltk #正则表达式 wordlist = [w for w in nltk.corpus.words.words('en') if w.islower()] print(wordlist) #查找ed结尾的词汇 print([w for w in wordlist if re.search('ed$', w)]) #匹配:8个字母,第3个原创 2017-12-13 16:52:51 · 410 阅读 · 1 评论 -
python 3.x 结巴(jieba)分词基础知识
# -*- coding: utf-8 -*- from __future__ import unicode_literals import sys sys.path.append("../") import jieba import jieba.posseg import jieba.analyse #分词 seg_list = jieba.cut原创 2017-12-19 15:59:05 · 1160 阅读 · 0 评论