一个爬虫从网页中爬取小说

一个简单的实例,从网页中爬取整部小说!

 1 import codecs
 2 import urllib.request
 3 import urllib
 4 import re
 5 
 6 urls=[]
 7 url = "https://www.biquger.com/biquge/39691/"
 8 #防爬设置
 9 header = {
10    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'
11 }
12 # 请求
13 request = urllib.request.Request(url,headers=header)
14 # 爬取结果
15 response = urllib.request.urlopen(request)
16 #decode使用utf-8报错,换成gbk
17 data = response.read().decode('gbk')
18 
19 #正则匹配标签
20 pattern = re.compile("href=['\"]([^\"'>]*?)['\"].*?",re.S)
21 items = re.findall(pattern, data)
22 for item in list(items):
23     if 'https' in item and '39691' in item:  ##判断是否为http协议链接,并判断是否抓取过
24         urls.append(item)
25 #print (urls)
26 print (urls[2])
27 for i in range(2,10):
28     request = urllib.request.Request(url=urls[i], headers=header)
29      # 爬取结果
30     response = urllib.request.urlopen(request)
31     #  decode使用utf-8报错,换成gbk
32     data = response.read().decode('gbk')
33     pattern = re.compile('<!--g0-->.*?<center>', re.S)
34     items = re.findall(pattern, data)
35     for item in items:
36         # 标签过滤
37         temp = item.replace('<br />', '')
38         temp = temp.replace('&nbsp;', '')
39         fo = codecs.open("foo.txt", "a",'utf-8')
40         fo.write(temp)
41         fo.close()
42         print(temp)
fiction_crawler

 

 

转载于:https://www.cnblogs.com/mtfan01/p/9053034.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值