0715----------爬虫

#0715-----------------------------

#数据清洗
'''
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
def ngrams(input,n):
    #input = re.sub("\n+","",input)
    #input = re.sub(" +","",input)
    input = input.replace(" ","")
    inputs = input.split("[,。、?!:“”]")
    output = []
    for input0 in inputs:
        for i in range(len(input0)-n-1):
            output.append(input0[i:i+n])
    return output

html = urlopen("https://baike.baidu.com/item/%E5%BC%A0%E4%BA%91%E9%9B%B7/17149")
bs0bj = BeautifulSoup(html,"html.parser")
content = bs0bj.find("div",{"class":"para"}).get_text()
ngrams = ngrams(content,2)
print(ngrams)
print(str(len(ngrams)))
'''

#排序 -------序列频率转换成OrdereDict对象
'''
from collections import OrderedDict

ngrams = ngrams(content,2)
ngrams = OrdereDict(sorted(ngrams.items(),key = lambda t:t[1],reverse = True))
print(ngrams)
'''
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值