跟着Bucky Roberts 的tutorial写了一个简单的网页词汇频率代码块
目的:根据所给网页,抓取上面的词汇(这里是英语词汇),并按照词汇出现的频率排序
步骤:
1. 创建一个list,将页面上的所有strings放进去
2. 整理list,去除掉特殊符号
3. 创建dictionary,将list内容放进去按照词汇出现的频率排序
需要的模块:requests, BeautifulSoup, operator
代码块及注释如下:
import requests
from bs4 import BeautifulSoup
import operator
url = 'https://www.python.org/events/'
#Step 1: create a list with every word in
def start(url):
#set up a blank list to store words