Python爬虫实战(六):爬取糗事百科段子

原创 2017年09月05日 12:33:56

直接上代码:


#coding=utf-8
import requests
from bs4 import Tag
from bs4 import BeautifulSoup

def getHtml(url):  
    page = requests.get(url)  
    html = page.text  
    return html

def getImg(html):
    get_text = Tag.get_text
    soup = BeautifulSoup(html, 'html.parser')
    
    info = soup.find_all('h2')
    user = (x.get_text() for x in info)   #使用生成器代替list(map(get_text,info))
                    
    info = soup.find_all('span',class_="stats-vote")
    vote = (x.get_text() for x in info)   #使用生成器代替list(map(get_text,info))  

    info = soup.find_all('div',class_="content")
    text = (x.get_text() for x in info)   #使用生成器代替list(map(get_text,info))  
    
    for x in zip(user,text,vote):         #zip函数同时遍历
        Enter = input()
        if Enter == 'Q' or Enter == 'q':
            return -1
        print("\n".join((s.strip() for s in x))) #使用生成器代替list(map(str.strip,x))
    return 1
 
if __name__=='__main__':
    url = "https://www.qiushibaike.com/hot/"
    html,i = getHtml(url),2
    print("开始读取数据,请按回车键...按Q键退出\n")
    while (getImg(html) == 1):
        print("\n第{}页\n".format(i))
        url = ("https://www.qiushibaike.com/hot/page/%s/" % str(i))
        html,i = getHtml(url),i+1
   

缺点:无法过滤掉既有文本,又有图片的内容。


待以后优化更新。

Python爬虫教程——实战一之爬取糗事百科段子

大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧。那么这次为大家带来,Python爬取糗事百科的小段子的例子。首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,...
  • yockie
  • yockie
  • 2015年09月05日 02:13
  • 1048

python 爬虫 爬取糗事百科段子

在网络上看到有介绍python爬虫爬去糗事百科段子的文章,觉得还挺好玩的,所以照着文章的思路自己重新实现了代码,完成了一个小小的爬虫爬取数据的例子。1.抓取页面的源码首先我们确定好页面的URL是 ht...
  • bitcarmanlee
  • bitcarmanlee
  • 2016年07月04日 22:03
  • 3910

python爬虫----爬取糗事百科

一个练手的小爬虫 熟悉了下requests,BeautifulSoup,正则表达式的操作 本来不想放上来,因为感觉写的不好,放上来方便自己以后修改下 import requests fro...
  • qq_32511479
  • qq_32511479
  • 2017年07月13日 14:00
  • 265

Python爬虫爬取内涵吧段子案例系列之八

爬取内涵吧段子案例
  • u014745194
  • u014745194
  • 2017年07月20日 19:11
  • 848

Python3.4简单爬虫实现之抓取糗事百科段子

网上的python教程大都是2.X版本的,python2.X和python3.X相比较改动比较大,好多库的用法不太一样,我安装的是3.4.1,就用3.4.1实现一下网页内容抓取 首先是库,2...
  • King_818
  • King_818
  • 2016年03月01日 15:30
  • 3515

[Python 爬虫之路1] 爬取糗事百科(requests,bs4)

需要打开,收藏的网站: 糗事百科 bs4中文文档 requsts中文文档 # 目标: # 1.嗅事百科 24小时 中的段子 # 2.过滤有图的段子 # 4.每次点击回车则显示一条笑话...
  • qq_28057541
  • qq_28057541
  • 2017年02月13日 21:44
  • 890

爬取糗事百科的段子

把糗事百科的段子信息爬取下来保存在txt文件内,内容有 用户名: 年龄: 好笑指数: 评论数: 段子内容: 借助火狐浏览器可以方便的查看网页源代码以及审查元素,便于爬取内容 此爬取的知识...
  • sxc1414749109
  • sxc1414749109
  • 2018年01月09日 16:28
  • 82

Python爬虫抓取最新段子发送到指定邮箱

#!usr/bin/env python3 #-*- coding:utf-8 -*-'爬取糗事百科文字版段子,发送到指定邮箱'import requests, refrom email import...
  • rainbowFactory
  • rainbowFactory
  • 2017年12月14日 14:35
  • 161

Python爬虫实战(1):爬取糗事百科段子

Python爬虫入门(1):综述Python爬虫入门(2):爬虫基础了解Python爬虫入门(3):Urllib库的基本使用Python爬虫入门(4):Urllib库的高级用法Python爬虫入门(5...
  • GarfieldEr007
  • GarfieldEr007
  • 2016年01月24日 19:45
  • 827

使用python 编写 抓取内涵段子动态图的简单爬虫

前段时间在浏览知乎的时候发现了一个关于python编写爬虫的帖子,下面是帖子的链接            www.zhihu.com/question/20899988 所以就想到了使用pyth...
  • oqqFengniao123456789
  • oqqFengniao123456789
  • 2015年04月23日 21:39
  • 2384
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Python爬虫实战(六):爬取糗事百科段子
举报原因:
原因补充:

(最多只允许输入30个字)