python爬取文章带格式_网络爬虫爬取新浪某篇文章的标题、日期时间、来源、作者及文章内容（Python）...

最新推荐文章于 2022-05-03 20:06:28 发布

weixin_39909859

最新推荐文章于 2022-05-03 20:06:28 发布

阅读量537

点赞数

文章标签： python爬取文章带格式

本文链接：https://blog.csdn.net/weixin_39909859/article/details/111425704

版权

本文介绍了如何使用Python的BeautifulSoup库和两种方法（urllib.request与requests）来爬取新浪新闻网站上的文章信息，包括标题、日期、来源、作者和文章内容。

摘要由CSDN通过智能技术生成

网络爬虫爬取新浪某篇文章的标题、日期时间、来源、作者及文章内容(Python)

发布时间：2018-04-22 12:47,

浏览次数：554

, 标签：

Python

1.准备工作

Python安装有BeautifulSoup4

Python安装有requests(可有可无，我会贴出两种方式)

2.当然进入主题了

先获得新浪的一篇文章的Url,我所用的Url为：

http://news.sina.com.cn/c/2018-04-22/doc-ifznefkh5284628.shtml

下面就是代码了：

(1)第一种方式：采用Python自带库urllib.request的方式获得链接

# 爬取文章标题，发表时间，文章来源,作者，文章内容 from urllib.request import urlopen from bs4 import

BeautifulSoup url = urlopen(

"http://news.sina.com.cn/c/2018-04-22/doc-ifznefkh5284628.shtml") #打开字符串的url

soup = BeautifulSoup(url,"html.parser") #使用指定解析器解析获得链接内容 head = soup.select(

".main-title")[0].text #获取文章标题 date = soup.select(".date")[0].text #获取日期 source

= soup.select(".source")[0].text #

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39909859

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

基于python爬取新浪微博爬虫以及生成词云源码（高分项目）.zip

05-14

基于python爬取新浪微博爬虫以及生成词云源码（高分项目）.zip个人经导师指导并认可通过的98分大作业设计项目，主要针对计算机相关专业的正在做课程设计、期末大作业的学生和需要项目实战练习的学习者。基于python...

Python爬虫爬取部分学校的新闻标题、时间、对应的新闻链接

꧁༺ʚvv༒catɞ༻꧂的博客

09-28

5216

使用工具 PyCharm 2018.2.3 Anaconda Navigator 谷歌浏览器插件：chrome_Xpath_v2.0.2 准备步骤

参与评论您还未登录，请先登录后发表或查看评论

爬虫取文本格式的更加简易的操作正则

xzhanxiang的博客

09-08

208

这个是对爬虫在网页上碰到正则的处理，以及多元性，可以运用正则更加轻松，好了，下面开始上代码 def hander_table(cls, string_content, reg_dict, item, need_reverse=None, need_2list=None, single_line_keys=None,

1.6python网络爬虫--读取和处理纯文本格式（CSV,PDF,docx）

SteveDraw的博客

06-26

1937

前言：互联网并不是：那些符合新式 Web 2.0 潮流，并且经过多媒体内容（这些内容在网络数据采集时几乎要被忽略的）点缀的 HTML 网站构成的集合。这忽略了互联网最基本的特征：作为不同类型文件的传输媒介。虽然互联网在 20 世纪 60 年代末期就已经以不同的形式出现，但是 HTML 直到 1992 年才问世。在此之前，互联网基本上就是收发邮件和传输文件；今天一，文档编码二级目录二，纯文本二级目录三，CSV 二级目录四，PDF 二级目录五，微软Word和.docx 二级目录 ...

爬虫系列：处理格式规范的文字

oHuangBing的博客

04-19

323

处理格式规范的文字在上一篇文章中我们介绍了图像识别与文字处理，同时还讲解了有哪些基本的 OCR 库。你要处理的大多数文字都是比较干净、格式规范的。格式规范的文字通常可以满足一些需求，不过究竟什么是“格式混乱”，什么算“格式规范”，确实因人而异。使用一个标准字体（不包含手写体、草书，或者十分”花哨的“字体）虽然被复印或拍照，字体还是很清晰，没有多余的痕迹或污点排列整齐，有歪歪斜斜的字没有超出图片范围，也没有残缺不全，或紧紧贴在图片的边缘文字的一些格式

【爬虫实践】爬取官方新闻标题、正文、时间

兴趣使然的创作者

01-16

4798

爬虫用的频率较少，每次使用都会手生，特此记录一次实战经历。项目需求要求爬取济南市政务网中“滚动预警”菜单中的文章，包括文章标题，文章正文，文章时间，并保存为txt文件。项目分析 1、判断可爬取的内容首先查看该网站的robots.txt文件，发现并不存在该文件。因此相关公开信息可正常爬取。 2、确定网页的加载模式网页加载可分为静态加载和动态加载。在网页中右键->选择查看源代码，即网页的静态代码。在网页中右键->检查，可查看浏览器当前渲染的内容。若两者一致，则网页是静态加载。此时，.

新浪微博爬虫，用python爬取新浪微博数据，并下载微博图片和微博视频.zip

08-24

在本资源中，我们主要探讨的是如何利用Python编程语言实现一个针对新浪微博的网络爬虫，目的是抓取微博数据，包括微博的文字内容、图片以及视频。爬虫是数据挖掘的重要工具，它能自动化地从互联网上收集信息，对于...

基于python爬取新浪微博爬虫以及生成词云代码+文档说明（高质量代码）

热门推荐

Alan_Xiang的博客

02-20

1万+

准备工作：安装requests和BeautifulSoup4。打开cmd，输入如下命令pip install requests pip install BeautifulSoup4打开我们要爬取的页面，这里以新浪新闻为例，地址为：http://news.sina.com.cn/china/按F12打开开发人员工具，点击左上角的图片，然后再页面中点击你想查看的元素：我点击了新闻标题处的元素，查看到该元

python爬取XLWB（含标题、日期、正文、点赞、评论、转发、图片等）

Yage的博客

05-03

753

利用python xpath爬取XLWB内容，包括作者、标题、正文、分页抓取、图片下载等

网络爬虫爬取新浪某篇文章的标题、日期时间、来源、作者及文章内容（Python）

植魂人的博客

04-22

7108

学习网络爬虫

python爬取某人所有微博_Python爬取博客的所有文章并存为带目录的word文档(实例67)

weixin_39784195的博客

11-20

674

看上博客上一个作者的文章，想一次性下载到一个word文件中，并且可以设置好目录，通过word的“导航窗格”快速定位单篇文章。一劳永逸，从此再也不用去博客上一篇一篇地翻阅了。整理一下步骤：先获取到所有文章的标题、发表日期、链接通过链接获取文章的内容将文章标题作为“1级”，发表日期和内容作为正文写入word文件保存wrod文件下面就按照以上步骤进行操作。先进入到目标博客的主页，点击“博文目录”，这样就...

python爬取文章带格式_python爬虫:将本人博客园文章转化为MarkDown格式

weixin_39588104的博客

12-05

588

本周又和大家见面了，首先说一下两周之后要进行研究生的期末考试，所以这次可能是考试之前的最后一更，我要忙着复习了，还请大家见谅，一般情况下我都是每周更新一篇技术原创。好了，废话不多说，咱们进入今天的主题。由于我在简书也有自己的基地，所以每次在博客园文章更新完，还要在简书进行更新。由于简书文章的编辑格式是MarkDown，所以前几次更新修改格式都是非常麻烦，浪费时间，尤其是有了图片之后。于是，为了不让...

CVE-2020-14883验证

weixin_39811856的博客

11-10

3421

[CVE-2020-14883] Oracle WebLogic Server认证的远程代码执行（RCE）基于windows的受攻击对象：tangosol.coherence.mvel2.sh.ShellSession() POST /console/css/%252e%252e%252fconsole.portal HTTP/1.1 Host: vulnerablehost:7001 Upgrade-Insecure-Requests: 1 User-Agent: Mozilla/5.0 ..

Python：学习爬取数据以分析（城市、注册时间、发表时间、评分、评论内容）

fxalll的博客

07-26

1220

最近因为泰迪实习需要，做一些这样的数据分析。分享一下相关代码。修改其中的url（注意应用规则，需要对爬虫有一定了解）即可用。 import requests import re from task_getUserInf import getUserInf import pandas as pd import emoji #用户数据获取 res = [] count = 1; number = -1 for i in range(0,20): print("========正在爬取第{}页用户数

使用 requests 库爬取日期数据时遇到的一个奇怪的日期解析问题

Cyber

03-09

412

今天在爬数据的时候，遇到一个很奇怪的问题。例如，我爬取的是如下页面：用的采集工具是 requests，但是在采集备案申报日期和复核通过日期这两个字段时，却遇到了些问题。在网页源代码中，备案申报日期对应 html 标签中的文本如下：但是采集到网页源代码却是如下：这就很奇怪，目前也不清楚原因。在这里，获取到的网页源代码经过了 bs4 解析，对应代码如下： soup = BeautifulSoup(r.text, "html.parser") 还以为是因为 bs4 把这些日期文本进行了自动转化

Python爬虫系列解决编码格式问题

似水灬流年的博客

05-13

4761

1.显示编码问题有时候当我们使用爬虫爬取网页源代码时，因为编码格式的不同导致乱码例如 www.4399.com 网页源代码我们可以看出4399的编码格式指定为 gb2312 而 Pycharm 默认的编码格式是 utf-8 所以当我们获取源代码时，汉字就会出现乱码 import requests url='http://www.4399.com' respon...

python爬取微博评论_详解用python写网络爬虫-爬取新浪微博评论

06-10

好的，我知道你想了解如何用 Python 爬取新浪微博评论。以下是一些步骤供您参考： 1. 安装必要的库在使用 Python 爬取微博评论前，您需要安装一些必要的库。其中，requests 和 BeautifulSoup 库是必不可少的。 ...