pythonurllib实战教学_Python——关于爬虫基础Urllib实战

今天来实际运行一下关于爬虫的一些小玩意

首先,我们打开IDLE,今天我们查询一下关于CSDN的标题名称。

>>> import urllib

>>> import urllib.request

>>> data=urllib.request.urlopen("https://www.csdn.net").read().decode("utf-8","ignore")

>>> len(data)

385957

>>> import re

>>> pat="

(.*?)"

>>> re.compile(pat,re.S).findall(data)

['CSDN-专业IT技术社区']

#爬到硬盘的文件中

>>> urllib.request.urlretrieve("http://www.jd.com",filename="本地路径(且要保存的文件名字")

>>> urllib.request.urlretrieve("https://www.csdn.net",filename="E:\\IDLE文件\\csdn.html")

#浏览器伪装

>>> opener=urllib.request.build_opener()

>>> UA=("user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36")

>>> opener.addheaders=[UA]

>>> urllib.request.install_opener(opener)

>>> data=urllib.request.urlopen("https://www.csdn.net").read().decode("utf-8","ignore")

Traceback (most recent call last):

File "", line 1, in

data=urllib.request.urlopen("https://www.csdn.net").read().decode("utf-8","ignore")

File "D:\python\lib\urllib\request.py", line 222, in urlopen

return opener.open(url, data, timeout)

File "D:\python\lib\urllib\request.py", line 523, in open

req = meth(req)

File "D:\python\lib\urllib\request.py", line 1268, in do_request_

for name, value in self.parent.addheaders:

ValueError: too many values to unpack (expected 2)

上面当浏览器伪装时,为什么会错误呢,是要解包的值太多

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值