抓取并充计文字数量

from bs4 import BeautifulSoup
import requests
import jieba
import operator
data = ""
url = "https://www.sohu.com/a/667138596_121332532?edtsign=97FD0595D380312998E3F9B2DF745EEDB3FF46D4&edtcode=v1kPcsuVpwONqQTmI9mDPg%3D%3D&scm=1103.plate:280:0.0.1_1.0&spm=smpc.home.top-news2.1.1681652134887q6G7VGh_1467&_f=index_news_0"
html = requests.get(url).text
soup = BeautifulSoup(html, "lxml")
article = soup.find("article",attrs= {"class":"article"})
for p_tag in article.find_all("p"):
    data += p_tag.text
    #print(p_tag.text)
#print(data,"\n")
with open("中文分字.txt", "w", encoding = "utf-8") as f:
    f.write(data)
with open("中文分字.txt", "r", encoding = "utf-8") as fp:
    data = fp.read()
data = data.translate({ord(c):None for c in  list(" ( ) , . ,。“ ” :;!、| \n / 《 》")})
words = jieba.cut(data)
#print(words)
for word in words:
    print(word, '/',  end="")

word_freq = dict()
print(dir(words))
for word in  words:
    if word not in word_freq:
        word_freq[word] = 1
        print(word_freq[word])
    else:
        word_freq[word] += 1
print(word_freq)


ordered_freq = sorted(word_freq.items(), key = operator.itemgetter(1), reverse = True)
for w , c in ordered_freq:
    print(w, c)


/标题 //国家 //计委 //主任 /王培安 /现在 //大家 //孩子 //难度 /不亚于 /过去 //大家 /少生 /孩子 /我国 /目前 /生育率 /太低 ////提高 /生育率 /难道 /非常 //现在 //大家 /愿意 //孩子 /多生 /孩子 //好孩子 //难度 /不亚于 /过去 //大家 /少生 /孩子 /甚至 //过去 /难度 /还要 //第十三届 /全国政协 /人口 /资源 /环境 /委员会 //主任 /中国 /计划生育 /协会 /常务 /副会长 /国家 /卫生 /健康 //健康 //人口 /发展 /战略 /研究院 /学术 /委员会 /主席 //国家 /卫生 /计生委 //主任 /王培安 //15 //召开 //中国 /卫生 /健康 /发展 /评价 /报告 //2022 //蓝皮书 /发布会 //表示 //认为 /我国 /人口 /发展 /经历 //深刻 //复杂 //变化 /去年 /我国 /人口 /出现 /多年 ///首次 /负增长 /针对 /高龄 /少子 ///挑战 ///重视 ///必要 /过分 /忧虑 /我们 /不能 /照搬 //收入 /国家 //制度 //不能 /忽视 /家庭 //个人 /发展 //基本保障 /必须 /找到 /促进 /人口 /长期 /均衡 /发展 //持续 /提升 /人民 /健康 /水平 //中国 /方案 /王培安 /提出 ///四个 /方面 /着力 /推进 //时代 /人口 /发展 /工作 ///加强 /家庭 //生育 /保障制度 //顶层 /设计 //研究 /大力 /倡导 /修身齐家 /优生优育 /男女平等 //新型 /家庭 /婚育 /文化 /提升 /生育 /意愿 /促进 /家庭 /发展 /推进 /实现 /适度 //生育 /水平 /二要 /关爱 /一老 /一小 /重点 /人群 /宣传 /积极 /老龄化 /推进 /健康 /老龄化 /加快 /建设 /居家 /社区 /机构 //协调 /医养 /康养 /相结合 //养老 /服务体系 /推进 /托幼 /服务 /学前教育 /纳入 /基本 /公共服务 /范围 /建立健全 /儿童 /早期 /健康 /服务网络 /切实 /减轻 /家庭 /生育 /养育 /教育 //负担 /三要 /加快 /卫生 /健康 /科技 /创新 /积极 /推动 /基因 /检测 /细胞工程 /辅助 /生育 //数据 //联网 /人工智能 //生物 //信息 /科技 //融合 /发展 ///低成本 //高效能 /更好 /体验 /服务 /民众 /日益增长 //健康 /需求 /四要 /构建 /党政 /主导 /社会 /动员 /全民 /参与 //现代 /卫生 /健康 /治理 /格局 /大力发展 /预防为主 /医防 /协同 /医防 /融合 //健康 /管理 //健康 /促进 /服务 /返回 /搜狐 /查看 ///责任编辑 /['__class__', '__del__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__name__', '__ne__', '__new__', '__next__', '__qualname__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'close', 'gi_code', 'gi_frame', 'gi_running', 'gi_yieldfrom', 'send', 'throw']
{}
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值