第七章7.1 数据清洗--将从网站上爬去的数据进行清洗然后转为2-grams序列输出

最新推荐文章于 2022-02-07 16:16:09 发布

晴天下雨下雪下冰雹

最新推荐文章于 2022-02-07 16:16:09 发布

阅读量220

点赞数

分类专栏： python网络数据采集

本文链接：https://blog.csdn.net/qq_24599703/article/details/83684166

版权

python网络数据采集专栏收录该内容

24 篇文章 1 订阅

订阅专栏

#!/usr/bin/env python
# _*_ coding:utf-8 _*_
import re
import string
from collections import OrderedDict
from urllib.request import urlopen

from bs4 import BeautifulSoup


def cleanInput(input):
    input= re.sub('\n+'," ",input)
    input=re.sub('\[[0-9]*\]',"",input)
    input=re.sub(' +'," ",input)
    input=bytes(input,"UTF-8")
    input=input.decode("ascii","ignore")
    cleanInput=[]
    input=input.split(' ')
    for item in input:
        item=item.strip(string.punctuation)
        if len(item)>0 or (item.lower()=='a' or item.lower()=='t'):
            cleanInput.append(item)
    return cleanInput
def ngrams(input ,n):
    input=cleanInput(input)
    output=[]
    outputNew=[]
    for i in range(len(input)-n+1):
        output.append(str(input[i:i+n]))
    setout=set(output)
    for item in setout:
        outputNew.append((item,output.count(item)))
    return outputNew
html=urlopen("https://en.wikipedia.org/wiki/Python_(programming_language)")
bsObj=BeautifulSoup(html,"html.parser")
content=bsObj.find("div",{"id":"mw-content-text"}).get_text()
ngrams=ngrams(content,2)
ngrams=OrderedDict(sorted(ngrams,key=lambda t: t[1],reverse=True))
print(ngrams)
print("2-ngrams count is "+str(len(ngrams)))

晴天下雨下雪下冰雹

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第七章7.1 数据清洗--将从网站上爬去的数据进行清洗然后转为2-grams序列输出

#!/usr/bin/env python# _*_ coding:utf-8 _*_import reimport stringfrom collections import OrderedDictfrom urllib.request import urlopenfrom bs4 import BeautifulSoupdef cleanInput(input): ...
复制链接

扫一扫

专栏目录