Python3从搜狐国际新闻抓取---尝试版

最新推荐文章于 2021-02-21 11:23:37 发布

s_scott

最新推荐文章于 2021-02-21 11:23:37 发布

阅读量718

点赞数 1

分类专栏：爬虫

本文链接：https://blog.csdn.net/S_Scott/article/details/86495598

版权

本文介绍了使用Python3的requests和BeautifulSoup库抓取并解析搜狐国际新闻的过程，包括下载HTML、解析新闻标题和链接。研究指出，海洋升温速度加快，南极融化加速，气候变化影响显著。

摘要由CSDN通过智能技术生成

Python3从搜狐国际新闻抓取—尝试版

点击此处获取完整代码

- 依赖包版本信息

Python 3.7.2
requests 2.21.0
beautifulsoup4 4.6.3

首先下载HTML代码到本地

import requests
from bs4 import BeautifulSoup
url = 'http://www.sohu.com/c/8/1461'
res = requests.get(url)
res.encoding = 'utf-8'
print(res.text)

观察HTML也代码结构以及想要爬取的位置

使用BeautifulSoup解析

soup = BeautifulSoup(res.text, 'html.parser')

此处可以使用print(soup.text)查看

# data-role="news-item"
# <div class="news-box clear news-box-aa">
# 上述class为多值的属性（空格隔开）
model = soup.select('.news-box-aa')
print(type(model))
print(model)

此处model的类型为：<class ‘list’>，一个列表。
model[i]，存放着每一条新闻的标题，以及详情链接

print(type(model[0]))
print(model[0])

可以看到model列表的第一个元素的类型和值
type(model[0]) 为<class ‘bs4.element.Tag’>
结果如下：

<div class="new

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

s_scott

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python3爬取新浪新闻文章内容代码

Hathaway的博客

01-09

1729

import pandas as pd import requests import json from bs4 import BeautifulSoup from datetime import datetime import re #当页跳转url url = 'http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gnxw&

python爬取喜马拉雅vip音频_Python简易爬虫教程（三）－－爬取喜马拉雅音频

weixin_39611043的博客

12-10

3887

上一篇我们重点介绍了如何把爬取到的图片下载下来。没错，如果你还记得的话，我们使用的是urlretrieve这个Python自带的下载模块。所以，到现在，爬虫框架的三个基本组成：获取网页，寻找信息，收集信息，我们已经学习完成。相信大家现在已经可以独立地编写自己的爬虫，爬取自己感兴趣的网站了。然而，随着不断实践，我们会发现，不是所有网站都是像我们前面爬取的搜狐新闻和新浪图片那样简单的。大部分网站，尤其...

参与评论您还未登录，请先登录后发表或查看评论

python爬取搜狐网的新闻

qq_36750461的博客

07-25

2755

搜狐网址：http://www.sohu.com/ 爬取图片中红框中的标题名和链接 1 import requests 2 from bs4 import BeautifulSoup 3 #搜狐网 4 newsurl = 'http://www.sohu.com/' 5 #用get方法进行网页获取 6 res = requests.get(newsurl) 7 #用u...

使用python爬取搜狐娱乐八卦新闻

镌守一生的博客

01-27

894

使用python3的BeautifulSoup爬取搜狐娱乐八卦新闻。包括八卦标题、链接、更新时间，还有更多属性就不一一列举了声明：这是简单demo 大神请绕道 #!/usr/bin/python3 from bs4 import BeautifulSoup import requests import time as tie print("爬取搜狐娱乐->八卦新闻；栏目标题...

Python爬虫——主题爬取搜狐新闻（步骤及代码实现）

bb123116的博客

10-21

7911

一、实现思路本次爬取搜狐新闻时政类获取url——爬取新闻名称及其超链接——判断与主题契合度——得到最终结果二、获取url变化规律观察发现，搜狐新闻页面属于动态页面但是F12——network——XHR下并没有文件所以不能从这里找从ALL中发现该文件中有想要找的内容发现该文件属于js文件观察四个feed开头的文件的url规律 page变化 callback变化无规律最后的数字每页+8 将callback去掉发现对网页内容无影响所以最终的page获取代码采用字符串拼接的形式 for

python新闻爬虫教程_python简易爬虫教程--（一）批量获取搜狐新闻

weixin_39640909的博客

12-03

1099

我们先从简单的抓取文本信息开始，来写我们的第一个爬虫程序，获取搜狐新闻的内容。我们首先来介绍一下我们需要用到的库。爬虫程序的步骤，一般可以分为三步：1.获取网页源码(html源码)；2.从代码中搜索自己需要的资源的位置；3.获取(下载)该资源。当然，现在有很成熟的python爬虫库比如scrapy等直接带有这些模块，让你用非常少的代码写出自己的爬虫程序。但是，本教程还是希望教会大家最基本的原理，带...

【Python】【爬虫】爬取网易、腾讯、新浪、搜狐新闻到本地

AudreyQCb的博客

09-16

8207

这个实验主要爬取新闻网站首页的新闻内容保存到本地，爬取内容有标题、时间、来源、评论数和正文。工具：python 3.6 谷歌浏览器爬取过程：一、安装库：urllib、requests、BeautifulSoup 1、urllib库：Urllib是python内置的HTTP请求库。用这个库可以用python请求网页获取信息。主要用到的函数： da...

python爬取新闻网站内容findall函数爬取_【Python】【爬虫】爬取网易、腾讯、新浪、搜狐新闻到本地...

weixin_33860377的博客

02-04

2639

这个实验主要爬取新闻网站首页的新闻内容保存到本地，爬取内容有标题、时间、来源、评论数和正文。工具：python 3.6 谷歌浏览器爬取过程：一、安装库：urllib、requests、BeautifulSoup1、urllib库：Urllib是python内置的HTTP请求库。用这个库可以用python请求网页获取信息。主要用到的函数：data = urllib.request.urlopen(q...

python软件介绍-Python简介

weixin_37988176的博客

10-29

2188

Python简介Python是当前非常热门、应用范围非常广、使用人员非常多的编程语言。每年都有很多的初学者开始接触并爱上Python语言。作为一门开源的编程语言，其学习教程、技术书籍有很多，各有优缺点。Python是一门强大的语言，可用于Web开发、自动化运维、科学计算、网络爬虫、数据分析、机器学习、深度学习等几乎所有主流应用方向。尤其是Python+Django的Web开发组合。更是开发大型新闻...

Python学习笔记(11) 如何用爬虫完整抓取搜狐新闻文章？

Python学习笔记

08-10

1430

一、操作步骤今天教大家抓取搜狐的新闻文章，重点讲解怎么抓取到完整的正文内容，怎么批量抓取到更多新闻，方法是通用的，大家可以应用到其他新闻网站的抓取，总体操作步骤如下：二、案例+操作步骤采集规则：搜狐新闻正文采集样本网址：http://www.sohu.com/a/227999170_123753?_f=index_chan08news_8&qq-pf-to=pcqq.temp...

Python-Python爬虫小脚本爬搜狐新闻列表存入数据库爬新闻新闻采集

08-10

Python,爬虫,小脚本,爬搜狐新闻列表存入数据库,爬新闻,新闻采集

网络爬虫爬取搜狐新闻并显示到页面上

10-20

网络爬虫源码爬搜狐新闻

抓取搜狐的有效链接和文章内容

05-31

利用scracpy框架，抓取搜狐网的链接和文章，并去重和过滤掉不合格的数据存到redis数据库中

爬取的搜狐新闻数据

03-05

爬取的搜狐新闻数据，一共有12个类别，分好类了

python3编程05--爬虫实战：爬取新闻网站信息1

大头皮鞋的博客

11-16

2215

爬取新闻网站信息本篇博客爬取内容如下：新闻标题、新闻时间、新闻来源、新闻内容、责任编辑、评论数（难点）、新闻标识符准备工作：安装python3 安装相关套件：jupyter、requests、BeautifulSoup4 、datetime （安装方法： pip install xxx）确定要爬取的新闻网站：首先打开新浪新闻 https://news...

python简易爬虫教程--(一)批量获取搜狐新闻_python简单入门爬虫-快速抓取一个网站...

weixin_39740283的博客

02-21

205

很多人害怕python复杂，还没入门就被吓倒了，今天我就要证明个大家看，python很简单。(高手们就别提底层了，留点入门的信心我们吧，我们就写个爬虫玩玩，玩玩而已。)使用python写一个入门级的非常简单的爬虫。#第一种方法import urllib2 #将urllib2库引用进来response=urllib2.urlopen("http://www.99kao.com") #调用库中的方法...

python爬虫搜狐新闻_Python爬虫——主题抓取搜狐新闻（步骤及代码实现）,爬取...

weixin_39630095的博客

12-03

910

import requestsfrom bs4 import BeautifulSoupimport jiebafrom gensim.corpora.dictionary import Dictionaryimport reimport jieba.analyse as anadef getdata():#news_all=[]news_dictall={}for p in range(1,10...

python简易爬虫教程--(一)批量获取搜狐新闻_Python3.4编程实现简单抓取爬虫功能示例...

weixin_39949776的博客

12-09

190

本文实例讲述了Python3.4编程实现简单抓取爬虫功能。分享给大家供大家参考，具体如下：import urllib.requestimport urllib.parseimport reimport urllib.request,urllib.parse,http.cookiejarimport timedef getHtml(url):cj=http.cookiejar.CookieJar()...