使用BeautifulSoup模块获取糗事百科上的笑话

最新推荐文章于 2018-10-18 10:06:34 发布

有一种宿命叫无能为力

最新推荐文章于 2018-10-18 10:06:34 发布

阅读量581

点赞数

分类专栏： --------------python爬虫练习文章标签： python

本文链接：https://blog.csdn.net/You_are_my_dream/article/details/53292976

版权

--------------python爬虫练习专栏收录该内容

21 篇文章 1 订阅

订阅专栏

更多解释在打开链接，这里使用BeautifulSoup爬取

#!/usr/bin/python
#coding: utf-8

from bs4 import BeautifulSoup
import re, sys, urllib, urllib2
reload(sys)
sys.setdefaultencoding( "utf-8" )

while True:
    url = "http://www.qiushibaike.com/hot/page/"

    try:
        x = int(raw_input(u"请输入一个数字(输入0结束), 荤段子只有35页:"))
    except Exception as e:
        print e
        print u"请输入数字"
        continue

    if x == 0:
        break
    url = url + str(x) + "/"

    headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

    try:
        html = urllib2.Request(url, headers = headers)
        html = urllib2.urlopen(html).read()

        html = html.decode("utf-8")

        soup = BeautifulSoup(html, "lxml")
        items = soup.find_all("div", {"class" : "content"})
        sys.stdout.write("\n")
        sys.stdout.write(u"第%d页\n" % x)
        sys.stdout.write("\n")
        for x, item in zip(range(1, len(items) + 1), items):
            sys.stdout.write(u"第%d条" % x)
            sys.stdout.write("\n")
            sys.stdout.write(item.get_text())
            sys.stdout.write("\n")

    except Exception as e:
        print e
        print u"出错了，无法链接糗事百科！"

使用类封装

#!/usr/bin/python
#coding: utf-8

import re, sys, urllib, urllib2
from bs4 import BeautifulSoup

class Qiushi_spider(object):

    def __init__(self, x):
        self.x = x
        self.url = "http://www.qiushibaike.com/hot/page/" + str(self.x) + "/"

    def find_out(self):

        try:
            headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

            html = urllib2.Request(self.url, headers = headers)
            html = urllib2.urlopen(html).read()

            soup = BeautifulSoup(html, "lxml")
            items = soup.find_all("div", {"class", "content"})

            sys.stdout.write("\n")
            sys.stdout.write(u"第%d页\n" % self.x)
            sys.stdout.write("\n")

            for num, item in zip(range(1, len(items) + 1), items):
                sys.stdout.write(u"第%d条" % num)
                sys.stdout.write("\n")
                sys.stdout.write(item.get_text())
                sys.stdout.write("\n")
        except Exception as e:
            print e
            print u"无法连接到糗事百科，请重新输入"

if __name__ == "__main__":
    while True:
        try:
            x = int(raw_input(u"请输入一个数字(输入0结束), 荤段子只有35页:"))

            if x == 0:
                break

            spider = Qiushi_spider(x)
            spider.find_out()

        except Exception as e:
            print e
            print u"输入出错了，请重新输入"

有一种宿命叫无能为力

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用BeautifulSoup模块获取糗事百科上的笑话

更多解释在打开链接，这里使用BeautifulSoup爬取#!/usr/bin/python#coding: utf-8from bs4 import BeautifulSoupimport re, sys, urllib, urllib2reload(sys)sys.setdefaultencoding( "utf-8" )while True: url = "htt
复制链接

扫一扫