爬取糗事百科的笑话

最新推荐文章于 2020-10-21 14:10:52 发布

御风之

最新推荐文章于 2020-10-21 14:10:52 发布

阅读量272

点赞数 1

文章标签：爬虫 python3

本文链接：https://blog.csdn.net/qq994327432/article/details/90648848

版权

提取打印糗事百科的笑话

import requests
import re
from bs4 import BeautifulSoup

url = 'https://www.qiushibaike.com/text/'
html = requests.get(url)
soup = BeautifulSoup(html.text, "html.parser")
labels = soup.find_all('div', class_='content')
for i in labels:
	for j in i.find_all('span'):
		ha = str(j.string)
		print(ha)

但是在打印是发现，会出现部分内容无法打印，显示为None.
仔细检查发现不能打印的都有个共同点，就是都含有换行符，打印整个内容才发现
换行符都是
，而不是\n。这应该就是无法打印的原因。
所以在使用beautifulsoup解析前先将其替换掉就可以了，同时为了方便阅读，把换行符也替换为空字符。

	html_fix = html.text.replace('<br/>', '')
	html_fix = html_fix.replace('\n', '')

最后就可以完整的显示提取出来的内容了。

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

御风之

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python爬虫（6）爬取糗事百科

Jimy_Fengqi

03-06

1万+

亲测有效，不管是windows 还是linux都能运行

在Python中使用BeautifulSoup进行网页爬取，糗事百科

一个火星程序员的专栏

12-05

2439

目录什么是网页抓取？为什么我们要从互联网上抓取数据？网站采集合法吗？HTTP请求/响应模型创建网络爬虫步骤1：浏览并检查网站/网页步骤2：创建用户代理步骤3：导入请求库检查状态码步骤4：使用 BeautifulSoup 库解析HTML步骤5：使用for循环请求多个页面步骤6：使用 select() 方法，快速找到标签元素步骤7：数据清洗，删除字符串“None”最终的解决方案输出：最后简介：Web抓取是从Internet提取数据的过程。这也称为网络收集或网络数据提取。Python使我们能够使用自动化技术执行

参与评论您还未登录，请先登录后发表或查看评论

python爬虫——爬取糗事百科笑话

less_than_one的博客

04-13

600

贴一个很基础的爬取糗事百科笑话的爬虫，用到了selenium库。（来源：程序媛）#-*- coding: utf-8 -*- from selenium import webdriver import time driver = webdriver.Firefox() #打开浏览器获取网址 driver.get('https://www.qiushibaike.com/') time.sle...

Python爬虫练习：爬取糗事百科

Python案例分享，B站视频教程：https://space.bilibili.com/523606542

10-21

383

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于CSDN，作者不温卜火爬取前的准备糗事百科官网：https://www.qiushibaike.com 段子网址：https://www.qiushibaike.com/text 关于解析html博主选择的方法是使用xpath，如有不懂的同学，可看下面两个表格。如果想要深入学习xpath的相关知识可点击博主给的官方文档的链接进行学习，博主在此声明是为了让.

[Python]爬取糗事百科

SmartSi

12-21

184

# coding=utf-8 import urllib2 import urllib import re class QiuShi: def _init_(self): self.page = 1 # 从网页获取糗事 def GetQiuShis(self,page): #网址 url = "http://www.qiushibaike.com/...

python爬虫爬取糗事百科

what_lei的博客

01-15

5953

最近研究python爬虫，按照网上资料实现了python爬虫爬取糗事百科，做个笔记。分享几个学习python爬虫资料：廖雪峰python教程主要讲解python的基础编程知识 python开发简单爬虫通过一个实例讲解python爬虫的整体结构 python正则表达式讲解爬虫中匹配中所需要的正则表达式 python爬虫系列教程几个训练的实例简单爬虫的架构爬虫的运

15.爬取糗事百科小项目.zip_搜索引擎_Python_

08-09

爬取糗事百科小项目.zip”的压缩包中，包含了一个Python爬虫项目，旨在爬取糗事百科网站上的内容。这个项目是针对初学者和那些希望深入理解Python网络爬虫技术的人设计的，使用的编程语言是Python 3.6版本。首先，...

基于python爬虫爬取“糗事百科”网站段子

最新发布

09-19

简单爬取段子代码如下： url = "http://jandan.net/duan/page-93#comments" headers = {"User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/...

利用python爬取糗百段子

03-21

在这个案例中，我们将讨论如何使用Python来爬取“糗百”网站的段子，这是一个流行的中文幽默社区。首先，我们需要理解爬虫的基本原理以及如何结合正则表达式（RegEx）和BeautifulSoup库来实现这一目标。 Python爬虫...

QSBK_BS4.rar_beautifulsoup_糗事百科

09-23

本篇将深入探讨如何利用BeautifulSoup库来爬取糗事百科网站上的笑话，助你轻松掌握网页爬虫的基本操作。首先，BeautifulSoup是Python中用于解析HTML和XML文档的库，它能够方便地提取和搜索页面中的数据。其核心...

python爬虫爬取糗事百科内容

11-17

糗事百科的爬虫，是主要用来介绍爬虫的一些基本知识，方便大家爬取简单的糗事百科的内容，利用的是beautifulsoup

网络爬虫——爬取糗事百科笑料段子

ACM,再见！

12-23

857

这两天在看python，抱着一本python学习手册看了好几天了，感觉没有什么长进。听说python写网络爬虫挺好，就在网上搜了一下教程，跟着看来看，一知半解自己也模仿着写了一个小项目：爬取糗事百科笑料段子或许是页面代码重写了吧，教程的代码不怎么好用，我模仿的该了一下正则表达式，修改了一下功能，感觉还能使，昨天晚上实现了。队友说：你这学爬虫心理就是爬黄段子啊== 明明是糗事好

爬取糗事百科

Co_zy的博客

10-15

515

这是一个简单爬虫打开糗事百科首页https://www.qiushibaike.com/ 拉到最下面点击下一页,观察url变化由此可以构造生成url的函数def getUrls(self,pages): url1 = 'https://www.qiushibaike.com/text/page/' for i in range(1,pages):

对糗事百科的搞笑段子的抓取

小羽飞的博客

05-05

572

对于这些搞笑段子来说，正常的爬取手段已经不能够顺利的抓取到了，所以我们经过分析之后，对爬取的界面加了一个请求头部和浏览器伪装接下来就使用昨天提到了lxml包进行html树状化来进行作者，好笑数，文章内容，评论数，这四种的数据提取我们首先分析一下需要爬取的内容的树状结构分析之后，共同点都是这个id的之前的值相同，后边的数字不一样所以我们使用contains方法，将...

爬取糗事百科，我是专业的！