python爬虫经典段子_Python爬虫实战：爬取内涵段子

weixin_39880666

于 2020-12-22 15:54:59 发布

阅读量188

点赞数

文章标签： python爬虫经典段子

本文链接：https://blog.csdn.net/weixin_39880666/article/details/111856359

版权

啊啊啊啊啊话不多说直接上代码

#coding=utf-8

import urllib2

import re

class Spider:

"""

内涵段子爬虫类

"""

def __init__(self, page, enable):

self.page = page

self.enable = enable

def loadPage(self, page):

url = 'http://www.neihan8.com/article/list_5_' + str(page) + '.html'

#User-Agent头

user_agent = 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT6.1; Trident/5.0'

headers = {'User-Agent': user_agent}

req = urllib2.Request(url, headers = headers)

response = urllib2.urlopen(req)

html = response.read()

gbk_html = html.decode('gbk').encode('utf-8')

# 找到所有的段子内容

# re.S 如果没有re.S 则是只匹配一行有没有符合规则的字符串，如果没有则下一行重新匹配

# 如果加上re.S 则是将所有的字符串将一个整体进行匹配

pattern = re.compile(r'

(.*?)

', re.S)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39880666

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python-爬虫-段子网笑话

12-20

Python-爬虫，通过使用BS4，requests库页面爬取所需信息

python爬虫经典段子_Python爬虫-爬取糗事百科段子

weixin_39915204的博客

12-22

244

闲来无事，学学python爬虫。在正式学爬虫前，简单学习了下HTML和CSS，了解了网页的基本结构后，更加快速入门。1.获取糗事百科url2.先抓取HTML页面importurllibimporturllib2importrepage= 2url= 'http://www.qiushibaike.com/hot/page/' +str(page) #对应第2页的urlrequest= urlli...

参与评论您还未登录，请先登录后发表或查看评论

python爬虫经典段子_Python爬虫实战之爬取糗事百科段子

weixin_39998859的博客

12-22

247

首先，糗事百科大家都听说过吧？糗友们发的搞笑的段子一抓一大把，这次我们尝试一下用爬虫把他们抓取下来。友情提示糗事百科在前一段时间进行了改版，导致之前的代码没法用了，会导致无法输出和CPU占用过高的情况，是因为正则表达式没有匹配到的缘故。现在，博主已经对程序进行了重新修改，代码亲测可用，包括截图和说明，之前一直在忙所以没有及时更新，望大家海涵！糗事百科又又又又改版了，博主已经没心再去一次次匹配它了，...

每日爬虫练习：爬取最新搞笑段子

12-21

2020-02-22日爬虫练习爬取网站：别逗了需求：爬取分页段子，并将段子标题和正文以字典的形式通过json序列化后存储到本地技术路线： 1.requests BeautifulSoup Json 通过zip函数将列表中奇数位置设为字典的key，偶数位置为相应的value ''' 爬虫实战爬取笑话网 version：01 author：金鞍少年 date:2020-03-22 ''' from bs4 import BeautifulSoup import requests import json class biedoul: def __init__(self, url,co

Python爬虫实例爬取网站搞笑段子

12-24

众所周知，python是写爬虫的利器，今天作者用python写一个小爬虫爬下一个段子网站的众多段子。目标段子网站为“http://ishuo.cn/”，我们先分析其下段子的所在子页的url特点，可以轻易发现发现为“http://ishuo.cn/subject/”+数字，经过测试发现，该网站的反扒机制薄弱，可以轻易地爬遍其所有站点。现在利用python的re及urllib库将其所有段子扒下 import sys import re import urllib #返回html格式 def gethtml(url): page=urllib.urlopen(url) html=pa

爬虫_8 xpath的使用好段子爬取_爬虫_python_

10-02

本教程将深入讲解如何使用XPath来抓取好段子网的段子信息，以此...总之，XPath是Python爬虫开发者的重要工具，掌握其用法能够帮助你更高效地解析和提取网页数据。不断实践和学习，你将能够应对各种复杂的网页抓取任务。

Python多线程爬虫实战_爬取糗事百科段子的实例

09-20

在给定的代码片段中，一个简单的Python爬虫被用来获取糗事百科8小时热榜的段子。它通过`urllib.request`库来打开网页并读取内容，然后使用正则表达式`re`解析HTML，提取出每个段子的文字内容。这段代码可以工作，但...

玩转python爬虫之爬取糗事百科段子

09-21

【Python爬虫实战：爬取糗事百科段子】 Python爬虫是一种强大的工具，用于自动抓取网页数据。在这个教程中，我们将学习如何使用Python爬取糗事百科上的热门段子，包括发布日期、发布人、段子内容和点赞数，并过滤掉...

基于python爬虫爬取“糗事百科”网站段子

09-19

简单爬取段子代码如下： url = "http://jandan.net/duan/page-93#comments" headers = {"User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/...

python爬虫--正则爬取内涵段子文字

jerechen的博客

02-13

1793

背景：虚拟机ubuntu16.04 爬取内涵段子文字，replace处理字符串要求，根据客户要求要爬取的page数，将段子爬取下来：源码如下： 1 # -*- coding:utf-8 -*- 2 3 import urllib2 4 import re 5 6 class Spider: 7 def __init__(self): 8 ...

Python爬虫之爬取内涵吧段子（urllib.request）

Don的博客

02-25

1000

引言在寒假开始的时候就打算学习爬虫了，但是没有想到一入坑到现在还没有出坑，说多了都是泪 T_T 我准备介绍的这个库是我初学爬虫时候用到的，比较古老，所以我只用了一两次就转向了requests了 urllib.request 这个库在python2.7之中其实是被称为urllib2，但是到了python3之后这个库就取消了，变成了urllib的一个内置了，当然啦，用法还是和之前的ur...

爬虫内涵段子贴吧内容

Jin__nan的博客

05-31

833

直接上代码 #-*- coding:utf-8 -*- import urllib2 import re class Spider: ''' 这是一个内涵段子吧的一个爬虫类 ''' def __init__(self): self.enable = True self.page = 1 #当前要爬去的页数 ...

Python抓取段子的爬虫

Arbboter的专栏

05-24

2551

1.需求按下回车键，显示一个段子，要求显示段子的作者、点赞数、评论数、顶等信息。 2.段子网站地址：http://www.qiushibaike.com/hot/page/1，更换后面的数字可以获取不同页的段子，每页有10多条段子吧，因此爬虫从读取该网页并解析就好了。 3.实现方式这里使用的Python库都是系统自带的，所以不需要安装额外的第三方库，

爬取段子网里面的搞笑段子

Woo_home的博客

01-30

1040

用python把段子都爬下来，用到两个库一个是requests库和etree库用到的段子网址为段子网址点击网址进入页面分析网页，按F12进入开发者模式，可以看到一条一条的数据都是在这个li列表里面，如果觉得很难找到爬取的内容的话也可以使用xpath-helper工具代码如下： import requests from lxml import etree def get_url(...

python爬虫之内涵段子

Walker990的博客

05-06

366

段子爬取这次解析使用的re import requests import re class Spider: def __init__(self): self.page = 1 self.switch = True def getConnect(self): """ 获取html,使用re库解析出想要的内容 ...

python爬虫实践之爬取笑话段子

二木成林

12-02

761

目录概述准备所需模块涉及知识点运行效果完成爬虫 1. 分析网页 2. 爬虫代码概述爬取笑话段子。准备所需模块 re requests lxml 涉及知识点 python基础 requests模块基础 re模块基础 xpath表达式基础运行效果控制台打印：完成爬虫 1. 分析网页打开笑话大全，按F12分析网页第一页的U...

智慧建造总体策划方案（76页）.pptx