【无标题】爬虫爬取

 

  1. from urllib import request

  2. import re

  3.  
  4. #定义url

  5. page=100

  6. url='https://tieba.baidu.com/f?kw=%E6%AE%B5%E5%AD%90&ie=utf-8&pn='+str(page)

  7. try:

  8. #定义请求头

  9. headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'}

  10. #定义请求,传入请求头

  11. req=request.Request(url,headers=headers)

  12. #打开网页

  13. resp=request.urlopen(req)

  14. #打印响应码,解码

  15. content=resp.read().decode('utf-8')

  16. print(content)

  17. #正则表达式

  18. pattern=re.compile(r'<a.*?title=(.*?)\s.*?>(.*?)</a>')

  19. #匹配html

  20. items=re.findall(pattern,content)

  21. #打印解析的内容

  22. for i in items:

  23. print(i[0]+'\t'+i[1])

  24. except request.URLError as e:

  25. #打印响应码

  26. if hasattr(e,'code'):

  27. print(e.code)

  28. #打印异常原因

  29. if hasattr(e,'reason'):

  30. print(e.reason)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值