爬取百思不得姐的段子

 1 #coding=utf-8
 2 import io
 3 import requests
 4 from bs4 import BeautifulSoup
 5 for i in range(1,50):
 6     url=requests.get('http://www.budejie.com/text/%s' % i) #使用request.get请求url
 7     soup = BeautifulSoup(url.text, 'html.parser')#使用parser解析
 8     all_desc=soup.find_all('div',class_='j-r-list-c-desc')
 9     for j in all_desc:
10         f=open(r'C:\Users\Administrator\Desktop\Python\qiushibaike\baisi.txt','r+',encoding='utf-8') #写入
11         f.read() #追加数据前要先读取yix
12         f.write(j.get_text())
13         f.close()
14     print("已爬取第%s页" % i)
15     i+=1

爬取白死不得姐的段子,并且写入到指定目录下的文本中。重点,使用parser解析获取到的url,然后通过soup.find_all()找到对应的标签,all_desc里面是多个<div><a>1231</a><div>,如何获取123123,我们通多for循环遍历,j.get_text().获取具体文本。在写入的时候先打开open(' ',' ',' ')三个参数,第一个为目录下的文件地址,第二个为操作方式' r+'是持续写入,但是后面写入的内容会替换掉前面的内容,解决办法是,在写入之前我们先读取f.read(),这样后写入的会被添加在末尾,不会覆盖。 第三个参数非常重要具体使用方法参见上一篇 http://www.cnblogs.com/wangcongsuibi/p/7941294.html

转载于:https://www.cnblogs.com/wangcongsuibi/p/7941779.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值