BeautifulSoup语法笔记（爬取新浪新闻）

最新推荐文章于 2024-08-19 09:22:32 发布

Barry-njr

最新推荐文章于 2024-08-19 09:22:32 发布

阅读量1k

点赞数 2

分类专栏： python

本文链接：https://blog.csdn.net/u014165082/article/details/81083120

版权

本文详细记录了使用BeautifulSoup库爬取新浪新闻的过程。通过分析新闻页面的HTML结构，讲解如何正确选择元素并提取所需信息，特别是在处理特殊格式数据时的语法技巧。文章最后给出了完整的爬虫代码示例。

摘要由CSDN通过智能技术生成

以爬取新浪新闻为例

import re
import requests
from bs4 import  BeautifulSoup
import json
from datetime import datetime

def getSoup(newsurl):
    res=requests.get(newsurl)
    res.encoding='utf-8'
    soup=BeautifulSoup(res.text,'html.parser')
    return soup

newsurl为新浪新闻sh首页某则新闻的链接

打印出soup查看结构

 title=soup.select('title')[0].text

def getArtcle(soup):
    article=[]
    for p in soup.select('#article p')[:-1]:
        article.append(p.text.strip())
    return '

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Barry-njr

关注关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

第四课简单爬取新浪新闻1

08-08

在本课程中，我们将探讨如何简单地爬取新浪新闻网站上的信息，主要关注新闻列表页面。新浪新闻作为国内知名的新闻资讯平台，其内容丰富多样，是进行网络爬虫实践的好对象。通过学习这一课，我们可以掌握基本的网页...

BeautifulSoup+pandas 爬取新浪国内新闻

lwx356481的博客

07-26

1940

（1）使用技术 python 3.5.2、sqlite3、pandas、requests、jupyter notebook （2）详细代码新浪国内新闻首页：http://news.sina.com.cn/china/ 1、爬取的内容为最新消息里面每个新闻详细页面的标题、发布时间、编辑、内容、评论数以及评论内容 2、编写思路使用requests将发送请求，并且将返回的数据接...

参与评论您还未登录，请先登录后发表或查看评论

第14.10节 Python中使用BeautifulSoup解析http报文：html标签相关属性的访问

老猿Python

09-11

1439

一、引言在《第14.8节 Python中使用BeautifulSoup加载HTML报文》中介绍使用BeautifulSoup的安装、导入和创建对象的过程，本节介绍导入后利用BeautifulSoup对象访问相关标签数据。本节案例中介绍处理的c:\temp\s1.html文件内容如下： <!DOCTYPE html> <html lang="zh-CN"> <he...

BeautifulSoup的基础语法

最新发布

s44359487yad的博客

08-19

1130

注意：前面定义的HTML源码标签对是缺少结束标签的，即没有和标签，但是使用prettify()函数输出的结果已经自动补齐了结束标签，这是BeautifulSoup的一个优点。比如“< a class=“poet” href=“http://example.com/dufu” id=“link1”>杜甫< /a>”，通过调用find_all(‘a’)函数获取所有超链接的HTML源码，再调用get(‘href’)获取超链接的内容，href属性对应的值为：http://example.com/dufu。

【爬虫实践】爬取官方新闻标题、正文、时间

兴趣使然的创作者

01-16

4798

爬虫用的频率较少，每次使用都会手生，特此记录一次实战经历。项目需求要求爬取济南市政务网中“滚动预警”菜单中的文章，包括文章标题，文章正文，文章时间，并保存为txt文件。项目分析 1、判断可爬取的内容首先查看该网站的robots.txt文件，发现并不存在该文件。因此相关公开信息可正常爬取。 2、确定网页的加载模式网页加载可分为静态加载和动态加载。在网页中右键->选择查看源代码，即网页的静态代码。在网页中右键->检查，可查看浏览器当前渲染的内容。若两者一致，则网页是静态加载。此时，.

爬取全部的校园新闻

aijuan2520的博客

04-09

149

　　作业要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2941 1.从新闻url获取新闻详情：字典,anews #获取新闻页面信息 def getNewsInfo(urlList): newsDict={}; newInfo = getHtml(urlList); so...

【毕设项目】新闻推荐平台功能详解----新闻爬虫

Requests

05-22

1721

Python爬虫实现使用beautifulSoup4爬取名言网功能案例

09-18

BeautifulSoup4的强大在于它可以轻松地处理复杂的HTML结构，而pymysql库则使得我们可以方便地将爬取到的数据保存到关系型数据库中。需要注意的是，在实际操作中，应遵循网站的robots.txt规则，尊重网站的爬虫政策，...

beautifulsoup语法

07-31

b e a u t I f u l s o u p的部分语法，内有代码和注释

sina_weibo_crawler:利用urllib2加beautifulsoup爬取新浪微博

05-19

sina_weibo_crawler 基于urlib2及beautifulSoup实现的微博爬虫系统。数据库采用mongodb，原始关系以txt文件存储，原始内容以csv形式存储，后期直接插入mongodb数据库功能: * weibo登陆，原始登陆机制采用模拟登陆，直接用PIL库调出验证码后，人工输入后，将相关参数编码到urllib2中，产生请求，后期采用cookie登陆, 免去了一系列麻烦。 * 爬取推送内容，推送内容主要包括用户发送的数据，包括发送时间、发送来源、转发来源。 * 爬取用户资料，包括用户的性别、年龄、住址、图像、昵称、ID. * 爬取用户关注、粉丝名单,由于新浪限制，目前只可以爬取大约5页左右的关注及粉丝列表。 * 爬取某条消息的评论及转发数据，可以通过解析js数据，爬取任意转发用户、评论用户的评论内容。 * 采用多进程在多核服务器上并行爬取 DEMO: 架构环境

Python爬虫2

lidan3636的博客

09-27

284

新浪网页爬虫 import requests res=requests.get('https://www.sina.com.cn/') res.encoding='utf-8' soup=BeatifulSoup(res.text,'html.parser') for news in soup.select('.rec-list-i'): if(len(news.sele...

处理soup.select()中的填写以及爬取信息出现空列表的情况

热门推荐

Prodigal

11-04

1万+

soup.select以及爬取信息出现空列表的情况举例一、先说soup.select()中的填写方法一方法二headers的修改方法，以及伪造假登陆。修改headers伪造假登陆举例以爬取csdn首页为例 https://www.csdn.net/ 一、先说soup.select()中的填写方法一直接检查右键 copy–&amp;gt;selector 有些网站做有反爬取，（例如58同城）...

soup.select()方法详解

XTY00的博客

11-12

9342

1 html = """ 2 <html><head><title>The Dormouse's story</title></head> 3 <body> 4 <p class="title" name="dromouse">&

Python爬虫学习笔记

chenyyhh92的博客

02-07

2738

结构安排一至十八是第一部分；十九至二十六是第二部分。一、大数据时代的挑战数据抽取、转换、存储 (Data ETL) 原始资料：Raw Data ETL脚本：ETL Scipt 结构化数据：Tidy Data 二、非结构化数据处理与网络爬虫网页链接器(Web Connector)向目标网页发出请求(request)；目标网页将响应(response)发送给网页链接器(Web Connector)；

python爬虫-使用BeautifulSoup爬取新浪新闻标题

zhzzzk的博客

04-08

2328

最近在学习爬虫的技巧，首先学习的是较为简单的BeautifulSoup，应用于新浪新闻上。

beautifulsoup mysql_python爬虫，抓取新浪科技的文章（beautifulsoup+mysql）

weixin_28880179的博客

02-03

121

这几天的辛苦没有白费，总算完成了对新浪科技的文章抓取，除非没有新的内容了，否则会一直爬取新浪科技的文章。想了解更多可以关注我的github:https://github.com/libp/WebSpider如果想要数据库表结构可以留下邮箱~# -*- coding: utf-8 -*-__author__ = 'Peng'from bs4 import BeautifulSoup,Commenti...

python爬虫，抓取新浪科技的文章（beautifulsoup+mysql）

周二也被占用

06-10

1142

这几天的辛苦没有白费，总算完成了对新浪科技的文章抓取，除非没有新的内容了，否则会一直爬取新浪科技的文章。想了解更多可以关注我的github:https://github.com/libp/WebSpider 如果想要数据库表结构可以留下邮箱~ # -*- coding: utf-8 -*- __author__ = 'Peng' from bs4 import BeautifulSou

Beautifulsoup多级页面爬取

03-28

使用BeautifulSoup多级页面爬取需要以下步骤： 1. 导入BeautifulSoup模块并获取页面内容： ``` import requests from bs4 import BeautifulSoup url = 'https://example.com' response = requests.get(url) soup ...