爬取糗事百科文字段子，（2016年10月22日可用）

最新推荐文章于 2020-12-25 15:57:53 发布

hy1405430407

最新推荐文章于 2020-12-25 15:57:53 发布

阅读量1k

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/hy1405430407/article/details/52895394

版权

python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

简单的利用bs4提取了一些东西，中途尝试了网上的多个版本，自己简单的模仿了一下。

主要提取部分：

<a href="/article/117808662" target="_blank" class='contentHerf' >
<div class="content">



<span>偶遇小朋友玩家家酒！<br/>一小姑娘说：谁要扮演老公的？只见小男孩们纷纷举起小手：我、我、我……<br/>好，这是你的搓衣板和尿壶，你就跪在这上面手上拖着尿壶，我在旁边化妆</span>


</div>
</a>

找到相应class提取span即可

from urllib.request import urlopen ,Request
from bs4 import BeautifulSoup
import re
import time

x=1
def gogogo(page):
    global x
    url = "http://www.qiushibaike.com/text/page/"+str(page)+"/?s=4922848"
    H = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
    req = Request(url=url,headers=H)
    res = urlopen(req)
    H = BeautifulSoup(res,"html.parser")
    t = H.findAll('a',{"class":re.compile("content")})

    for i in t:
        lists = i.find('span')
        f.write(str(x)+":")
        x=x+1
        f.write(lists.get_text())
        f.write("\n\n")
    time.sleep(1)

if __name__ =="__main__":
    f = open("d.txt",'a',encoding='utf-8')
    for i in range(1,4):
        gogogo(i)
    print('Good Job!')
    f.close()

程序代码比较简单，需要模拟一下浏览器访问即可，正在学习计算机网络，第10行的内容可以根据自己的浏览器进行替换，学一下开发者工具还是很重要的。

hy1405430407

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬取糗事百科文字段子，（2016年10月22日可用）

简单的利用bs4提取了一些东西，中途尝试了网上的多个版本，自己简单的模仿了一下。主要提取部分：偶遇小朋友玩家家酒！一小姑娘说：谁要扮演老公的？只见小男孩们纷纷举起小手：我、我、我……好，这是你的搓衣板和尿壶，你就跪在这上面手上拖着尿壶，我在旁边化妆找到相应class提取span即可from urllib.request import urlopen ,Reque
复制链接

扫一扫

专栏目录