python爬取文章_python 爬取文章

最新推荐文章于 2024-07-21 21:39:32 发布

weixin_39767513

最新推荐文章于 2024-07-21 21:39:32 发布

阅读量386

点赞数

文章标签： python爬取文章

这里我们利用强大的python爬虫来爬取一篇文章。仅仅做一个示范，更高级的用法还要大家自己实践。

好了，这里就不啰嗦了，找到一篇文章的url地址：http://www.duanwenxue.com/article/673911.html

（注意，有一些网站会做一些反爬处理，关于这些网站的爬取会在近期的文章中说明）

这是一篇散文，）

可知网页的编码方式为GB2312

但在解码是要decode（’GB18030‘），

具体说明：http://www.cnblogs.com/jjj-fly/p/6696523.html

下面开始实现代码：

1 #coding=GB18030

2 importurllib.request3 from bs4 importBeautifulSoup4 importre5

6 url="http://www.duanwenxue.com/article/673911.html"

7 a=urllib.request.urlopen(url)8

9 htmlstr=a.read().decode('GB18030')10

11 soup=BeautifulSoup(htmlstr,'html.parser')12

13 y=re.compile(r'

([\s\S]*?)

')14 text=y.findall(str(soup)) #第一次正则表达式筛选所有

中的内容

16 x=''

17 print(len(text))18 for i inrange(0,len(text)):19 x=x+text[i]20

21 text1=re.sub("?\w+[^>]*>",'',x) #去掉html标签

23 text2=text1.replace("。",'。\n\n\0\0') #让文本更好看

24 print(text2)

输出结果

over!

参考：http://www.cnblogs.com/jjj-fly/p/6901022.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39767513

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

静态网页案例_超详细的python爬虫案例，一次爬取上百篇文章

weixin_39626298的博客

11-28

1006

一次爬多篇文章，逻辑是先从主网址爬到每篇文章的网址，再从各个网址处爬取文章，很简单的静态网页爬取，不需考虑反扒问题。话不多说，直接案例说话。实例：从https://www.biquge.com.cn/book/24032/，爬取小说的全部章节的内容。图1实现方法：requests 访问 + BeautifulSoup解析1、目标网址是静态网页，浏览网址和数据网址相同，可直接使用。import re...

python爬文章_python：简单爬取自己的一篇博客文章

weixin_32287801的博客

02-21

201

python实现杨辉三角形python实现杨辉三角形- Mr_choa -博客园var currentBlogId= 586285;var currentBlogApp= 'Mr-choa';var cb_enable_mathjax=false;var isLogined=false;var skinName= 'CodingLife';.github-corner:hover .octo-ar...

参与评论您还未登录，请先登录后发表或查看评论

Python爬虫（3） --爬取网页文本

最新发布

m0_74896766的博客

07-21

2974

指定url：找到网页地址发送请求：requests请求获取你想要的数据：文本接收，请求到的内容数据解析：xpath语言：定位到目标位置re正则匹配：精准取出目标内容，去除杂质。

python爬取文章_使用 Python 爬取简书网的所有文章

weixin_39885683的博客

11-20

245

image阅读文本大概需要 6 分钟。抓取目标我们要爬取的目标是「简书网」。打开简书网的首页，随手点击一篇文章进入到详情页面。image我们要爬取的数据有：作者、头像、发布时间、文章 ID 以及文章内容。准备工作在编写爬虫程序之前，我都是先对页面进行简单分析，然后指定爬取思路。由于我们爬取简书网所有的文章数据，所以考虑使用「 CrawlSpider 」来对整个网站进行爬取。首先使用 Scrap...

python爬虫爬取网站文章

fubingxing的博客

01-14

9323

这次爬取网站为：‘http://www.agri.cn/kj/syjs/zzjs/’ 程序大致分为六步： 1、引入相关的库和设置两个正则表达式规则 2、设置爬取的网页数量 3、设置网页中包含文章的HTML部分 4、在获取的部分中提取包含文章连接的HTML语言 5、获取文章连接 6、根据文章连接获取文章标题和内容并写入文本结果演示：将每一篇文章保存为txt一共爬取了30篇文章所有代码： import requests import re from bs4 import BeautifulS

简单的文章爬取（Python）

qq_49644209的博客

03-08

350

from bs4 import BeautifulSoup import bs4 import requests import lxml # UA 伪装 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0" } # 先进行首页数据的爬取 # 指定url url = "https://so.gushiwen.org/guwen/book_106.asp

百度图片爬取_爬取_爬取图片_爬虫_python爬_python_

09-29

本篇文章将详细讲解如何利用Python爬取指定关键词的百度图片，涉及的知识点包括网络爬虫的基本原理、Python的requests库、BeautifulSoup库以及可能用到的图片处理库如PIL。首先，我们需要理解网络爬虫的工作原理。...

python爬虫.rar_python_python爬取图片_python爬虫_爬虫

07-14

指定一个网站，从该网站上爬取全部匹配的图片到任意指定的文件夹当中，关键是正则表达式的使用

爬取微博数据_爬取微博_python爬虫_爬取微博数据并可视化_数据开发_微博分析_

10-02

在本文中，我们将深入探讨如何使用Python爬虫技术来爬取微博数据，分析情感倾向，以及将结果以可视化的方式展示。首先，让我们了解为何要进行微博数据爬取以及它的价值。微博作为中国的一个社交媒体平台，拥有海量...

python如何爬取网页中的文字

09-16

在本篇文章里小编给大家整理的是关于python如何爬取网页中的文字的相关实例内容，需要的朋友们可以学习下。

python爬取文章_python怎么爬取简书网文章

weixin_40003451的博客

11-23

573

python爬取简书网文章的步骤：1、准备工作，创建scrapy爬虫，建立数据库和表# 打开 CMD 或者终端到一个指定目录# 新建一个项目scrapy startproject jianshu_spidercd jianshu_spider# 创建一个爬虫scrapy genspider -t crawl jianshu "jianshu.com"2、爬取思路，检查网页的所有href属性，获取文...

python爬虫之旅--爬取文章

jinxianfan的博客

07-13

1000

话不多说，先上图第一步：导入requests，导入re（没用上。。。）导入lxml，引用etree；如果这几个都没有，自行下载就行了。pip install requests/pip install lxml; 第二步：先把网页爬下来看看情况，url=‘xxxxxxxxxxxxxxxx’；看了下请求方式是get，拼个header头，直接requests.get走你；第三步：判断页面数据，好家伙，都是文字，大段大段的，直接一个etree.HTML(),然后用xpath选取需要的内容 title = te

用Python爬虫爬取自己要的文章

Ugyfyv的博客

11-16

4184

用Python爬虫爬取自己要的文章在CSDN上有很多精彩的技术博客文章，我们可以把它爬取下来，保存在本地磁盘，可以很方便以后阅读和学习，现在我们就用python编写一段爬虫代码，来实现这个目的。我们想要做的事情：自动读取博客文章，记录标题，把心仪的文章保存到个人电脑硬盘里供以后学习参考。过程大体分为以下几步：找到爬取的目标网址；分析网页，找到自已想要保存的信息，这里我们主要保存是博客的文章内容；清洗整理爬取下来的信息，保存在本地磁盘。打开csdn的网页，作为一个示例，我们随

python 爬取文章（内含图片，表格，文章夹杂）

zpeien

08-10

7826

使用Beautiful Soup 库 Beautiful soup 库是一个非常强大的库函数，使用它可以分析很多html网页，相对于正则表达式好用却方便，不用费劲心思去考虑怎么用正则表达式去提取自己所需要的信息，直接引用便可以。 url = 'http://old.pep.com.cn/czsx/xszx/czsxtbjxzy/czsxdzkb/czsxdzkb7s_1_1_1_1_1/2......

[Python爬虫] 简单网络爬虫抓取博客文章及思想介绍