第一个爬虫项目的完善

原文见https://blog.csdn.net/yvonne_lu7/article/details/81097787

在昨天做完这个小项目后,今天又对它进行了完善

首先,之前的代码爬下来的数据没办法存在本地,并且最多只能爬3页,因此,对之前的代码进行了完善与修改,达到了可以存在本地文件并且可以爬完所有的功能。

先看代码:

from urllib.request import urlopen
from bs4 import BeautifulSoup


def getPage():
    pagelist = []
    basic_page = 'https://bbs.pku.edu.cn/v2/thread.php?bid=690&mode=topic&page='
    for i in range(1, 255):
        new_page = basic_page+str(i)
        pagelist.append(new_page)
    return pagelist


def getLinks(url):
    phtml = urlopen(url)
    bsarticle = BeautifulSoup(phtml, 'html.parser')
    title = '标题:'+str(bsarticle.find(id="post-read").find("h3").get_text())+'\n'
    f.writelines(title)
    name = bsarticle.findAll('p', {'class': 'nickname text-line-limit'})
    for n in name:
        if n.text == '心理咨询师':
            postcard = n.parent.parent
            bsn = BeautifulSoup(str(postcard), 'html.parser')
            answer = bsn.find('div', {'class': 'body file-read image-click-view'}).p
            reply = '心理咨询师回复:'+str(answer.get_text())+'\n'
            f.writelines(reply)
    f.writelines('==================================\n\n')


filename = '心理.txt'
f = open(filename, 'w', encoding='utf-8')
for page in getPage():
    html = urlopen(page)
    bspage = BeautifulSoup(html, 'html.parser')
    articles = bspage.findAll('div', {'class': 'list-item-topic list-item'})
    b_url = 'https://bbs.pku.edu.cn/v2/'
    for art in articles:
        getLinks(b_url+art.a.attrs['href'])

最主要的区别在于新增加了一个getPage()函数,之前的项目中,对于每一页,我是通过爬虫获取每页的url做到的,但是这样对于爬虫负担比较大,而通过观察发现,每一页的url变化都不大,基本都是 

'https://bbs.pku.edu.cn/v2/thread.php?bid=690&mode=topic&page='

再加上页数,因此我们可以直接用for循环遍历得到每一页的url,而不用单独爬取每一页的Url


def getPage():
    pagelist = []
    basic_page = 'https://bbs.pku.edu.cn/v2/thread.php?bid=690&mode=topic&page='
    for i in range(1, 255):
        new_page = basic_page+str(i)
        pagelist.append(new_page)
    return pagelist

此时,getPage()这个函数返回的是一个列表,因此,在需要的时候直接遍历整个列表就好了 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值