python爬虫BUG(爬取航班信息)

python爬取中遇到的一些错误以及解决方案:

must be str, not ReadTimeout

must be str, not ConnectionError

429 Too Many Requests 

乱码(gb2312)

 1 错误信息:
 2 AS1084航班爬取错误
 3 must be str, not ProxyError 错误信息未处理
 4 解决方案:
 5 使用try exceptprint(记录错误航班) pass跳出错误继续爬取
 6 
 7 错误信息:
 8 CA3767航班爬取错误
 9 local variable 'ok' referenced before assignment   未赋值前被引用
10 解决方案:
11 赋值改为全局变量 global ok
12 
13 错误信息:
14 MF1930航班爬取完成!
15 must be str, not ReadTimeout 获取网页超时
16                content = requests.get(
17                    'http://happiness.variflight.com/info/detail?fnum',
18                    proxies=proxies,timeout=30).text
19 解决方案:
20 超时即 except:pass重新连接页面
21 
22 错误信息:
23 NS8185航班爬取完成!
24 must be str, not ConnectionError 数据库连接错误
25 解决方案:
26 重连数据库,记录并 pass跳过此条航班信息
27 
28 错误信息:
29 429 Too Many Requests  错误页面
30 403
31 502
32 解决方案:
33 频繁访问页面,判断为正常页面 爬取即可
34 
35 解决方案:
36 unc = stringa.decode("gb2312") #先decode
37 print unc.encode("utf-8") #后转utf-8
38 HTML乱码 此编码方式为gb2312
39 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
40 <HTML><HEAD>
41 <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=gb2312"> 
42 <TITLE>′í?ó£o?ú?ù???óμ?í??·£¨URL£??T·¨??è?</TITLE>
43 <STYLE type="text/css"><!--BODY{background-color:#ffffff;font-family:verdana,sans-serif}PRE{font-family:sans-serif}--></STYLE>
44 </HEAD><BODY>
45 <H1>′í?ó</H1>
46 <H2>?ú?ù???óμ?í??·£¨URL£??T·¨??è?</H2>
47 <HR noshade size="1px">
48 <P>
49 μ±3¢ê??áè?ò???í??·£¨URL£?ê±£o
50 <A HREF="http://happiness.variflight.com/info/detail?fnum=CZ3134&amp;dep=TSN&amp;arr=CAN&amp;date=2017-12-28&amp;type=1">http://happiness.variflight.com/info/detail?fnum=CZ3134&amp;dep=TSN&amp;arr=CAN&amp;date=2017-12-28&amp;type=1</A>
51 <P>
52 ·¢éúá???áDμ?′í?ó£o
53 <UL>
54 <LI>
55 <STRONG>
56 Read Error
57 <BR>
58 ?áè?′í?ó
59 </STRONG>
60 </UL>
61 
62 <P>
63 ?μí3??ó|£o
64 <PRE><I>    (104) Connection reset by peer</I></PRE>
65 
66 <P>
67 An error condition occurred while reading data from the network.  Please
68 retry your request.
69 <BR>
70 ?y?úí¨1yí????áè?êy?Yê±·¢éúá?′í?ó£?????D?3¢ê??£
71 </P>
72 <P>±??o′?·t???÷1üàí?±£o<A HREF="mailto:support@chinacache.com">support@chinacache.com</A>

 

转载于:https://www.cnblogs.com/lx07/p/8144765.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值