python3爬虫(基于requests、BeautifulSoup4)之项目实战(一)

python3爬虫(基于requests、BeautifulSoup4)之项目实战

1.项目简述:
操作系统:windows10
所需软件:pycharm(社区、专业版均可)
python版本:个人使用python 3.7.0
我抓取的是母校教务处网站首页的新闻内容
母校教务处网站链接:http://jwc.tyut.edu.cn/
2.具体操作:
首先打开pycharm 新建python项目,创建一个TYUT.py
之后导入requests、BeautifulSoup4库就可以开始爬虫之旅了。
具体导入方法:

import requests
from bs4 import BeautifulSoup

爬虫首先解决的问题应该是获取网页全部内容
这时候应该用Chrome开发工具对目标网页有一个简单的分析
这里写图片描述
明确了网页的请求方法是request.get后就可以写代码了

import requests
from bs4 import BeautifulSoup

def getInfo(url):
    res=requests.get(url)
    res.encoding='utf-8'
    print(res.text)

if __name__ == '__main__':
    url='http://jwc.tyut.edu.cn/'
    getInfo(url)

这一步可以将目标网页的html连同标签全部放到res下,同时为了防止乱码要指定返回内容编码为utf-8
这时候我们可以执行一下代码,返回结果部分如下:
这里写图片描述
这时候我们要知道返回内容带有许多html标签,我们要将标签去除,这时候就要用到BeautifulSoup了

import requests
from bs4 import BeautifulSoup

def getInfo(url):
    res=requests.get(url)
    res.encoding='utf-8'
    soup=BeautifulSoup(res.text,'html.parser')
    print(soup.text)

if __name__ == '__main__':
    url='http://jwc.tyut.edu.cn/'
    getInfo(url)

打印一下我们发现这时返回数据只有文本内容了,结果部分如下:
这里写图片描述

今天实战就到这里,下期再见

  • 3
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值