使用beautifulsoup 处理抓取的网页内容

一、爬取网页新闻标题及链接

一般网页的内容先是看到标题及其链接,点击链接后才看到新闻内容。因此首先要爬取网页新闻标题。

import requests

from bs4 import BeautifulSoup

newsurl="http://www.chinahighway.com/xw/xw_gnjt.php"
res=requests.get(newsurl)
res.encoding='gb2312'
soup=BeautifulSoup(res.text,'lxml')
print(type(soup))
print(soup.name)
for news1 in soup.select('.homelia'):
    print(news1['href'])

    print(news1['title'])

<class 'bs4.BeautifulSoup'>
[document]
/news/2018/1167037.php
海南:全省一季度公路水路完成投资近40亿元
/news/2018/1167030.php
2017年交通运输行业发展统计公报(图)
/news/2018/1167021.php
“交通+旅游”推进服务大数据应用试点
/news/2018/1167020.php
五部门启动节能与新能源商用车积分管理研究
/news/2018/1167013.php

二、获取新闻内容

通过链接进一步获取新闻的实际内容

import requests
from bs4 import BeautifulSoup
newsurl="http://www.chinahighway.com/news/2018/1167037.php"
res=requests.get(newsurl)
res.encoding='gb2312'
soup=BeautifulSoup(res.text,'lxml')
print(type(soup))
print(soup.name)
for news1 in soup.select('.thetext'):   

    print(news1)


<p>  昨天上午,在铺前大桥第一标段施工现场,工人刘伟红正和10多位工友们一起忙着拼装大桥的钢内模,大颗的汗珠不断从他们头上滚下,“工期紧,任务重,今年的春节,我们都是在工地上过的。”不仅是在铺前大桥,在琼乐高速、万洋高速、文琼高速等我省重点交通项目建设现场,热火朝天的施工场面每天都在上演。
</p><p>  今年以来,按照省委、省政府的部署,省交通运输厅全力推进交通项目建设投资工作,紧抓执行不松懈,实现了一季度交通项目投资的“开门红”,“一桥六路”等备受关注的省重点交通建设项目都取得了重大进展。


阅读更多
想对作者说点什么?

博主推荐

换一批

没有更多推荐了,返回首页