使用beautifulsoup 处理抓取的网页内容

原创 2018年04月17日 13:10:01

一、爬取网页新闻标题及链接

一般网页的内容先是看到标题及其链接,点击链接后才看到新闻内容。因此首先要爬取网页新闻标题。

import requests

from bs4 import BeautifulSoup

newsurl="http://www.chinahighway.com/xw/xw_gnjt.php"
res=requests.get(newsurl)
res.encoding='gb2312'
soup=BeautifulSoup(res.text,'lxml')
print(type(soup))
print(soup.name)
for news1 in soup.select('.homelia'):
    print(news1['href'])

    print(news1['title'])

<class 'bs4.BeautifulSoup'>
[document]
/news/2018/1167037.php
海南:全省一季度公路水路完成投资近40亿元
/news/2018/1167030.php
2017年交通运输行业发展统计公报(图)
/news/2018/1167021.php
“交通+旅游”推进服务大数据应用试点
/news/2018/1167020.php
五部门启动节能与新能源商用车积分管理研究
/news/2018/1167013.php

二、获取新闻内容

通过链接进一步获取新闻的实际内容

import requests
from bs4 import BeautifulSoup
newsurl="http://www.chinahighway.com/news/2018/1167037.php"
res=requests.get(newsurl)
res.encoding='gb2312'
soup=BeautifulSoup(res.text,'lxml')
print(type(soup))
print(soup.name)
for news1 in soup.select('.thetext'):   

    print(news1)


<p>  昨天上午,在铺前大桥第一标段施工现场,工人刘伟红正和10多位工友们一起忙着拼装大桥的钢内模,大颗的汗珠不断从他们头上滚下,“工期紧,任务重,今年的春节,我们都是在工地上过的。”不仅是在铺前大桥,在琼乐高速、万洋高速、文琼高速等我省重点交通项目建设现场,热火朝天的施工场面每天都在上演。
</p><p>  今年以来,按照省委、省政府的部署,省交通运输厅全力推进交通项目建设投资工作,紧抓执行不松懈,实现了一季度交通项目投资的“开门红”,“一桥六路”等备受关注的省重点交通建设项目都取得了重大进展。


Python-抓取股票信息

-
  • 1970年01月01日 08:00

使用Python3和BeautifulSoup爬取笑话网站内容,并导入Excel

本文使用Python3和BeautifulSoup爬取网站内容,并导入Excel。 本文使用的库有如下几个: import urllib.request from bs4 import Beautif...
  • weixin_39198406
  • weixin_39198406
  • 2017-06-16 15:52:39
  • 27550

Python获取网页指定内容(BeautifulSoup工具的使用方法)

Python用做数据处理还是相当不错的,如果你想要做爬虫,Python是很好的选择,它有很多已经写好的类包,只要调用,即可完成很多复杂的功能,此文中所有的功能都是基于BeautifulSoup这个包。...
  • Danielntz
  • Danielntz
  • 2016-07-15 21:52:31
  • 10340

python beautifulsoup 抓取网页正文内容

使用python 的 beautifulsoup 来抓取网页
  • lan_se_ye_ge
  • lan_se_ye_ge
  • 2014-09-04 13:21:11
  • 5000

【Python3.6爬虫学习记录】(二)使用BeautifulSoup爬取简单静态网页文章

前言:自学第二天,大致搞懂,要学什么,要怎么学的问题。 与我而言,主要是针对一些库来循序渐进:requests(urllib)->BeautifulSoup(re,xpath)->selenium(...
  • qq_36962569
  • qq_36962569
  • 2017-08-12 20:38:57
  • 473

使用Requests库和BeautifulSoup库来爬取网页上需要的文字与图片

Pythone现在已经成为全球最火爆的语言了,它的强大之处想必不需要我多说吧。接下来我就Python网络爬虫来谈一谈本渣渣的见解。 ----------------------------------...
  • wanghaoranand
  • wanghaoranand
  • 2017-08-08 21:58:34
  • 1548

使用Python+selenium+BeautifulSoup抓取动态网页的关键信息

程序目的:根据特定的SNP list, 在千人基因组数据库中爬取CHB人群的等位基因频率信息。 因为网页是动态的数据,嵌入了JavaScript代码,因此借助selenium来爬取信息。 Beau...
  • VincentLuo91
  • VincentLuo91
  • 2016-10-27 16:39:57
  • 6901

python爬虫——BeautifulSoup 抓取图片

python 利用BeautifulSoup 抓取图片# -*- coding: utf-8 -*- """""" import urllib from bs4 import BeautifulSou...
  • xiao_lxl
  • xiao_lxl
  • 2017-08-22 11:25:00
  • 650

[python]利用BeautifulSoup进行简单图片抓取

官网:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
  • johnny880730
  • johnny880730
  • 2017-03-16 17:01:22
  • 2020

网页爬虫自动抓取网页内容

  • 2011年08月04日 09:37
  • 96KB
  • 下载
收藏助手
不良信息举报
您举报文章:使用beautifulsoup 处理抓取的网页内容
举报原因:
原因补充:

(最多只允许输入30个字)