通达信 day文件 解析_通过python对“多个文本文件”统计“多个关键词”的频数的方法...

“语象观察”是钱刚老师之前在做的一个研究项目,之前曾经在公众号“尽知天下事”(现已被封)上发布。我对这种通过数据来发掘有价值的内容的数据新闻很感兴趣,算是弥补自己文笔不行还想从事新闻传媒的曲线救国道路吧。

不过作为一个对电脑方面感兴趣但很小白的我来说,所有的步骤想起来都很简单,但实操起来无从下手,不过决心还是很坚定的,决定要做到现在基本完成将近10个月。

8354446212690b94d04f467e2bd2e83b.png

一步步找问题,找解决办法,和一次次试验。念念不忘,必有回响。目前我已经实现了所有我最初的设想功能。


一:获取人民日报的数据

分析数据,第一步是要获取人民日报的数据。利用爬虫每月爬取人民日报当月内容为txt文件,爬虫这部分代码来源于CSDN用户@机灵鹤,帮助我解决了最难的编程问题,非常感谢。

1、代码如下:

import requests
import bs4
import os
import datetime
import time

def fetchUrl(url):
    '''
    功能:访问 url 的网页,获取网页内容并返回
    参数:目标网页的 url
    返回:目标网页的 html 内容
    '''

    headers = {
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
    }

    r = requests.get(url,headers=headers)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    return r.text

def getPageList(year, month, day):
    '''
    功能:获取当天报纸的各版面的链接列表
    参数:年,月,日
    '''
    url = 'http://paper.people.com.cn/rmrb/html/' + year + '-' + month + '/' + day + '/nbs.D110000renmrb_01.htm'
    html = fetchUrl(url)
    bsobj = bs4.BeautifulSoup(html,'html.parser')
    temp = bsobj.find('div', attrs = { 'id': 'pageList'})
    if temp:
        pageList = temp.ul.find_all('div', attrs = { 'class': 'right_title-name'})
    else:
        pageList = bsobj.find('div', attrs = { 'class': 'swiper-container'}).find_all('div', attrs = { 'class': 'swiper-slide'})
    linkList = []

    for page in pageList:
        link = page.a["href"]
        url = 'http://paper.people.com.cn/rmrb/html/'  + year + '-' + month + '/' + day + '/' + link
        linkList.append(url)

    return linkList

def getTitleList(year, month, day, pageUrl):
    '''
    功能:获取报纸某一版面的文章链接列表
    参数:年,月,日,该版面的链接
    '''
    html = fetchUrl(pageUrl)
    bsobj = bs4.BeautifulSoup(html,'html.parser')
    temp = bsobj.find('div', attrs = {<
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值