python段子_python爬虫爬取段子

最新推荐文章于 2020-12-22 15:54:59 发布

weixin_39517289

最新推荐文章于 2020-12-22 15:54:59 发布

阅读量115

点赞数

文章标签： python段子

本文链接：https://blog.csdn.net/weixin_39517289/article/details/111420398

版权

#-*-coding:utf-8

import requests

import os

from bs4 import BeautifulSoup

import lxml

import sys

#改变系统的默认编码

reload(sys)

sys.setdefaultencoding('utf-8')

class DZ():

def __init__(self,url,pageIndex):

self.url=url+str(pageIndex)

self.headers={'User_Agent':'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'}

#得到一页的源码

def get_one_page_html(self):

re=requests.get(self.url,self.headers)

html=re.text

return html

#得到所有的段子的url

def get_one_text_url(self):

all_a=[] #这里用来记录每一条段子的链接

for i in range(1,2): #这里先暂时爬取30页的段子

html=self.get_one_page_html()

soup=BeautifulSoup(html,'lxml')

all_h2=soup.find_all('h2')

for h2 in all_h2:

all_a.append(h2.find('a').get('href'))

return all_a

#下载所有的段子

def get_text(self):

all_a=self.get_one_text_url() #首先获得所有段子的url

x=0

for a in all_a:

re=requests.get(a,headers=self.headers)

html=re.text

soup=BeautifulSoup(html,'lxml')

all_p=soup.find('article',class_='article-content').find_all('p')

for p in all_p:

print p.text

if __name__=='__main__':

url='https://duanziwang.com/category/duanzi/page/'

app=DZ(url,1)

app.get_text()

希望与广大网友互动？？

点此进行留言吧！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39517289

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python爬虫实例爬取网站搞笑段子

12-24

众所周知，python是写爬虫的利器，今天作者用python写一个小爬虫爬下一个段子网站的众多段子。目标段子网站为“http://ishuo.cn/”，我们先分析其下段子的所在子页的url特点，可以轻易发现发现为“http://ishuo.cn/subject/”+数字，经过测试发现，该网站的反扒机制薄弱，可以轻易地爬遍其所有站点。现在利用python的re及urllib库将其所有段子扒下 import sys import re import urllib #返回html格式 def gethtml(url): page=urllib.urlopen(url) html=pa

Python爬虫糗事百科段子（scrapy+beautifulsoup）

03-13

通过scrapy框架获取页面内容，用beautifulsoup取代正则表达式匹配格式，获取多页段子

参与评论您还未登录，请先登录后发表或查看评论

Python爬虫之爬取内涵吧段子（urllib.request）

Don的博客

02-25

988

引言在寒假开始的时候就打算学习爬虫了，但是没有想到一入坑到现在还没有出坑，说多了都是泪 T_T 我准备介绍的这个库是我初学爬虫时候用到的，比较古老，所以我只用了一两次就转向了requests了 urllib.request 这个库在python2.7之中其实是被称为urllib2，但是到了python3之后这个库就取消了，变成了urllib的一个内置了，当然啦，用法还是和之前的ur...

python爬虫经典段子_Python爬虫实战：爬取内涵段子

weixin_39880666的博客

12-22

178

啊啊啊啊啊话不多说直接上代码#coding=utf-8import urllib2import reclass Spider:"""内涵段子爬虫类"""def __init__(self, page, enable):self.page = pageself.enable = enabledef loadPage(self, page):url = 'http://www.neihan8.c...

爬虫_8 xpath的使用好段子爬取_爬虫_python_

10-02

通过这个简单的示例，你已经学会了如何使用XPath和Python的`lxml`库来爬取网页数据。在实际项目中，你可能需要处理更复杂的网页结构，例如处理嵌套的标签、动态加载的内容或者分页。此外，还需要考虑反爬虫策略，如...

Python多线程爬虫实战_爬取糗事百科段子的实例

09-20

本实例将详细讲解如何使用Python实现多线程爬虫，以爬取糗事百科上的段子作为具体应用。首先，我们需要了解普通爬虫的工作方式。在给定的代码片段中，一个简单的Python爬虫被用来获取糗事百科8小时热榜的段子。它...

玩转python爬虫之爬取糗事百科段子

09-21

【Python爬虫实战：爬取糗事百科段子】 Python爬虫是一种强大的工具，用于自动抓取网页数据。在这个教程中，我们将学习如何使用Python爬取糗事百科上的热门段子，包括发布日期、发布人、段子内容和点赞数，并过滤掉...

Python爬虫爬取糗事百科段子实例分享

09-16

在本篇关于Python爬虫爬取糗事百科段子的实例中，我们将学习如何使用Python进行网络数据抓取，特别是针对网页结构简单的站点，如糗事百科。首先，我们需要了解爬虫的基本工作原理：通过发送HTTP请求到指定的URL获取...

Python-Scrapy爬虫入门级项目实战之糗事百科段子爬取

Chinacc

08-21

321

1.DOS命令创建项目 1.1 scarpy startproject qsbk(项目名称) 1.2 进入项目目录 cd qsbk 1.3 scrapy genspider qsbk_spiderqiushibaike.com(爬虫名称,爬虫名称不能与项目名称同名) 1.2 可以在pycharm或其他编译器上试运行，博主用pycharm，用pycharm打开qsbk项目，然后在页面下方找到Ter...

使用Python爬虫实现获取糗事百科数据

Blossom

11-14

405

注意：原文章写于2016年12月 Python爬取目标抓取糗事百科页面中的热门段子（包括作者和内容）过滤带有图片的段子内容（Pycharm控制台无法输出图片）使用Python面向对象对功能进行封装，并在控制台实现，敲击一次回车键显示一个段子作者和内容的功能。功能实现确定页面的HTML结构：确定需要抓取的页面为：http://www.qiushibaike.com/hot/，...

5110-微信小程序健身房私教预约微信小程序+ssm（源码+数据库+lun文）.zip

09-15

Fast_integration_dependencies_in_spring_boot.是一个快速_fastdep.zip

最新发布

09-15

Fast_integration_dependencies_in_spring_boot.是一个快速_fastdep

05-Python数据类型-列表的相关运算

09-15

python字典介绍.docx

09-15

python字典介绍

5062-微信小程序传染病防控宣传系统的设计与实现+springboot（源码+数据库+lun文）.zip

09-15

智慧种植管理系统.zip

09-15

Farmify是一个基于Python的项目，旨在帮助农民进行作物病虫害预测、作物推荐和肥料建议。该项目利用机器学习模型建立预测系统，并结合Flask进行Web应用开发。它提供了疾病预测、作物推荐和肥料建议等功能。项目结构清晰，包含多个模块，如疾病预测模型、肥料建议模型、随机森林模型用于作物推荐等。此外，该项目还集成了天气预报数据，并使用了OpenWeatherMap API获取温度和湿度数据。该项目有助于提高农业生产效率和农民收入。 1、资源项目源码均已通过严格测试验证，保证能够正常运行； 2、项目问题、技术讨论，可以给博主私信或留言，博主看到后会第一时间与您进行沟通； 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用，尤其对于人工智能、计算机科学与技术等相关专业，更为适合； 4、下载使用后，可先查看ReaDME.md文件（如有），本项目仅用作交流学习参考，请切勿用于商业用途。

5302-微信小程序党建工作小秘书（源码+数据库）.zip

09-15

5137-微信小程序在线选座+ssm（源码+数据库+lun文）.zip

09-15

Python爬虫实战：内涵段子爬取解析

首先，我们来看第一个实例，它是一个爬取内涵段子网站内容的爬虫。这个爬虫项目使用了Python的基础库urllib2来发送HTTP请求，并通过添加自定义的User-Agent头来模拟浏览器行为，防止被网站识别为机器人。`load`...