爬虫遇到的问题

一、Python2 和 python3 中的urllib、urllib2问题

1、urllib2在py3中已不存在,解决urllib2的方式:

 1 urllib2在python3.x中被改为urllib.request 

2、AttributeError: 'module' object has no attribute 'urlencode',解决方法:

 1 需要导入import urllib.parse 

3、TypeError: POST data should be bytes or an iterable of bytes. It cannot be of type str.,解决方法:

 1 把原先:data = urllib.urlencode(values) 2 改为:data = urllib.parse.urlencode(values).encode(encoding='UTF8') 

4、TypeError: Can't convert 'bytes' object to str implicitly,解决方法:

1 需进行编码或解码操作:
2 data = urllib.parse.urlencode(values).encode(encoding='utf8')
3 url = 'https://passport.cnblogs.com/user/signin?ReturnUrl=xxxxxxxxxx
4 geturl = url+'?'+data.decode()
5 print(geturl)

 5、UserWarning: No parser was explicitly specified, so I'm using the best available HTML parser for this system ("html.parser")

from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://www.pythonscraping.com/pages/page1.html")
bsObj = BeautifulSoup(html.read(),"html.parser")
print(bsObj.h1)

在BeautifulSoup里面增加"html.parser"

 

转载于:https://www.cnblogs.com/xiaoyaowuming/p/6372832.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值