通达信 day文件解析_通过python对“多个文本文件”统计“多个关键词”的频数的方法...

最新推荐文章于 2024-06-08 10:55:02 发布

乾泽

最新推荐文章于 2024-06-08 10:55:02 发布

阅读量604

点赞数

文章标签：通达信 day文件解析

本文链接：https://blog.csdn.net/weixin_36288992/article/details/113370313

版权

“语象观察”是钱刚老师之前在做的一个研究项目，之前曾经在公众号“尽知天下事”(现已被封)上发布。我对这种通过数据来发掘有价值的内容的数据新闻很感兴趣，算是弥补自己文笔不行还想从事新闻传媒的曲线救国道路吧。

不过作为一个对电脑方面感兴趣但很小白的我来说，所有的步骤想起来都很简单，但实操起来无从下手，不过决心还是很坚定的，决定要做到现在基本完成将近10个月。

一步步找问题，找解决办法，和一次次试验。念念不忘，必有回响。目前我已经实现了所有我最初的设想功能。

一：获取人民日报的数据

分析数据，第一步是要获取人民日报的数据。利用爬虫每月爬取人民日报当月内容为txt文件，爬虫这部分代码来源于CSDN用户@机灵鹤，帮助我解决了最难的编程问题，非常感谢。

1、代码如下：

import requests
import bs4
import os
import datetime
import time

def fetchUrl(url):
    '''
    功能：访问 url 的网页，获取网页内容并返回
    参数：目标网页的 url
    返回：目标网页的 html 内容
    '''

    headers = {
     
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
    }

    r = requests.get(url,headers=headers)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    return r.text

def getPageList(year, month, day):
    '''
    功能：获取当天报纸的各版面的链接列表
    参数：年，月，日
    '''
    url = 'http://paper.people.com.cn/rmrb/html/' + year + '-' + month + '/' + day + '/nbs.D110000renmrb_01.htm'
    html = fetchUrl(url)
    bsobj = bs4.BeautifulSoup(html,'html.parser')
    temp = bsobj.find('div', attrs = {
     'id': 'pageList'})
    if temp:
        pageList = temp.ul.find_all('div', attrs = {
     'class': 'right_title-name'})
    else:
        pageList = bsobj.find('div', attrs = {
     'class': 'swiper-container'}).find_all('div', attrs = {
     'class': 'swiper-slide'})
    linkList = []

    for page in pageList:
        link = page.a["href"]
        url = 'http://paper.people.com.cn/rmrb/html/'  + year + '-' + month + '/' + day + '/' + link
        linkList.append(url)

    return linkList

def getTitleList(year, month, day, pageUrl):
    '''
    功能：获取报纸某一版面的文章链接列表
    参数：年，月，日，该版面的链接
    '''
    html = fetchUrl(pageUrl)
    bsobj = bs4.BeautifulSoup(html,'html.parser')
    temp = bsobj.find('div', attrs = {<

最低0.47元/天解锁文章

乾泽

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
通达信 day文件解析_通过python对“多个文本文件”统计“多个关键词”的频数的方法...

“语象观察”是钱刚老师之前在做的一个研究项目，之前曾经在公众号“尽知天下事”(现已被封)上发布。我对这种通过数据来发掘有价值的内容的数据新闻很感兴趣，算是弥补自己文笔不行还想从事新闻传媒的曲线救国道路吧。不过作为一个对电脑方面感兴趣但很小白的我来说，所有的步骤想起来都很简单，但实操起来无从下手，不过决心还是很坚定的，决定要做到现在基本完成将近10个月。一步步找问题，找解决办法，和一次次试...
复制链接

扫一扫