爬取糗事百科文字段子,(2016年10月22日可用)

简单的利用bs4提取了一些东西,中途尝试了网上的多个版本,自己简单的模仿了一下。

主要提取部分:

<a href="/article/117808662" target="_blank" class='contentHerf' >
<div class="content">



<span>偶遇小朋友玩家家酒!<br/>一小姑娘说:谁要扮演老公的?只见小男孩们纷纷举起小手:我、我、我……<br/>好,这是你的搓衣板和尿壶,你就跪在这上面手上拖着尿壶,我在旁边化妆</span>


</div>
</a>

找到相应class提取span即可

from urllib.request import urlopen ,Request
from bs4 import BeautifulSoup
import re
import time

x=1
def gogogo(page):
    global x
    url = "http://www.qiushibaike.com/text/page/"+str(page)+"/?s=4922848"
    H = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
    req = Request(url=url,headers=H)
    res = urlopen(req)
    H = BeautifulSoup(res,"html.parser")
    t = H.findAll('a',{"class":re.compile("content")})

    for i in t:
        lists = i.find('span')
        f.write(str(x)+":")
        x=x+1
        f.write(lists.get_text())
        f.write("\n\n")
    time.sleep(1)

if __name__ =="__main__":
    f = open("d.txt",'a',encoding='utf-8')
    for i in range(1,4):
        gogogo(i)
    print('Good Job!')
    f.close()
程序代码比较简单,需要模拟一下浏览器访问即可,正在学习计算机网络,第10行的内容可以根据自己的浏览器进行替换,学一下开发者工具还是很重要的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值