抓取并充计文字数量

最新推荐文章于 2024-07-23 14:36:35 发布

渊博自习室

最新推荐文章于 2024-07-23 14:36:35 发布

阅读量29

点赞数 1

文章标签： python beautifulsoup

本文链接：https://blog.csdn.net/m0_61382108/article/details/130190226

版权

from bs4 import BeautifulSoup
import requests
import jieba
import operator
data = ""
url = "https://www.sohu.com/a/667138596_121332532?edtsign=97FD0595D380312998E3F9B2DF745EEDB3FF46D4&edtcode=v1kPcsuVpwONqQTmI9mDPg%3D%3D&scm=1103.plate:280:0.0.1_1.0&spm=smpc.home.top-news2.1.1681652134887q6G7VGh_1467&_f=index_news_0"
html = requests.get(url).text
soup = BeautifulSoup(html, "lxml")
article = soup.find("article",attrs= {"class":"article"})
for p_tag in article.find_all("p"):
    data += p_tag.text
    #print(p_tag.text)
#print(data,"\n")
with open("中文分字.txt", "w", encoding = "utf-8") as f:
    f.write(data)
with open("中文分字.txt", "r", encoding = "utf-8") as fp:
    data = fp.read()
data = data.translate({ord(c):None for c in  list(" ( ) , . ，。“ ” ：；！、| \n / 《 》")})
words = jieba.cut(data)
#print(words)
for word in words:
    print(word, '/',  end="")

word_freq = dict()
print(dir(words))
for word in  words:
    if word not in word_freq:
        word_freq[word] = 1
        print(word_freq[word])
    else:
        word_freq[word] += 1
print(word_freq)


ordered_freq = sorted(word_freq.items(), key = operator.itemgetter(1), reverse = True)
for w , c in ordered_freq:
    print(w, c)

原 /标题 /原 /国家 /卫 /计委 /副 /主任 /王培安 /现在 /让 /大家 /生 /孩子 /的 /难度 /不亚于 /过去 /让 /大家 /少生 /孩子 /我国 /目前 /生育率 /太低 /了 /但 /要 /提高 /生育率 /难道 /非常 /大 /现在 /让 /大家 /愿意 /生 /孩子 /多生 /孩子 /生 /好孩子 /的 /难度 /不亚于 /过去 /让 /大家 /少生 /孩子 /甚至 /比 /过去 /难度 /还要 /大 /第十三届 /全国政协 /人口 /资源 /环境 /委员会 /副 /主任 /中国 /计划生育 /协会 /常务 /副会长 /国家 /卫生 /健康 /委 /健康 /和 /人口 /发展 /战略 /研究院 /学术 /委员会 /主席 /原 /国家 /卫生 /计生委 /副 /主任 /王培安 /在 /15 /日 /召开 /的 /中国 /卫生 /健康 /发展 /评价 /报告 /（ /2022 /） /蓝皮书 /发布会 /上 /表示 /他 /认为 /我国 /人口 /发展 /经历 /着 /深刻 /而 /复杂 /的 /变化 /去年 /我国 /人口 /出现 /多年 /来 /的 /首次 /负增长 /针对 /高龄 /少子 /化 /的 /挑战 /既 /要 /重视 /也 /没 /必要 /过分 /忧虑 /我们 /不能 /照搬 /高 /收入 /国家 /的 /制度 /也 /不能 /忽视 /家庭 /和 /个人 /发展 /的 /基本保障 /必须 /找到 /促进 /人口 /长期 /均衡 /发展 /和 /持续 /提升 /人民 /健康 /水平 /的 /中国 /方案 /王培安 /提出 /要 /从 /四个 /方面 /着力 /推进 /新 /时代 /人口 /发展 /工作 /一 /要 /加强 /家庭 /和 /生育 /保障制度 /的 /顶层 /设计 /和 /研究 /大力 /倡导 /修身齐家 /优生优育 /男女平等 /的 /新型 /家庭 /婚育 /文化 /提升 /生育 /意愿 /促进 /家庭 /发展 /推进 /实现 /适度 /的 /生育 /水平 /二要 /关爱 /一老 /一小 /重点 /人群 /宣传 /积极 /老龄化 /推进 /健康 /老龄化 /加快 /建设 /居家 /社区 /机构 /相 /协调 /医养 /康养 /相结合 /的 /养老 /服务体系 /推进 /托幼 /服务 /学前教育 /纳入 /基本 /公共服务 /范围 /建立健全 /儿童 /早期 /健康 /服务网络 /切实 /减轻 /家庭 /生育 /养育 /教育 /的 /负担 /三要 /加快 /卫生 /健康 /科技 /创新 /积极 /推动 /基因 /检测 /细胞工程 /辅助 /生育 /大 /数据 /物 /联网 /人工智能 /等 /生物 /和 /信息 /科技 /的 /融合 /发展 /以 /更 /低成本 /更 /高效能 /更好 /体验 /服务 /民众 /日益增长 /的 /健康 /需求 /四要 /构建 /党政 /主导 /社会 /动员 /全民 /参与 /的 /现代 /卫生 /健康 /治理 /格局 /大力发展 /预防为主 /医防 /协同 /医防 /融合 /的 /健康 /管理 /和 /健康 /促进 /服务 /返回 /搜狐 /查看 /更 /多 /责任编辑 /['__class__', '__del__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__name__', '__ne__', '__new__', '__next__', '__qualname__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'close', 'gi_code', 'gi_frame', 'gi_running', 'gi_yieldfrom', 'send', 'throw']
{}