提取文章关键词,使用TF-IDF 算法,使用的例子是结合jieba分词,使用FreDist,因为TF-IDF算法需要的是一个语料库,当前语料库只有一篇文章,所以TF-IDF算法就退化成计算文章词频的算法了:
需要记录的是FreqDist的成员函数
plot(n),绘制出现次数最多的前n项
tabulate(n),该方法接受一个数字n作为参数,会以表格的方式打印出现次数最多的前n项
most_common(n),该方法接受一个数字n作为参数,返回出现次数最多的前n项列表
hapaxes(),返回一个低频项列表
需要记录的是FreqDist的成员函数
plot(n),绘制出现次数最多的前n项
tabulate(n),该方法接受一个数字n作为参数,会以表格的方式打印出现次数最多的前n项
most_common(n),该方法接受一个数字n作为参数,返回出现次数最多的前n项列表
hapaxes(),返回一个低频项列表
max(),该方法会返回出现次数最多的项。
# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
import jieba
import re
from nltk.book import *
from pylab import *
from jieba.analyse import *
def stop_words():
stop_word_list = []
f = open('stopwords.txt', 'rU',encoding='UTF-8')
for word in f:
stop_word_list.append(word.strip())
return stop_word_list
r = requests.get('https://blog.csdn.net/chszs/article/details/80658582')
soup = BeautifulSoup(r.text, 'lxml')
# 获得主要内容
context = soup.find(