python小白逆袭大神打卡营--day2-爬虫实例

小白爬虫之心得简述

环境配置

https://ai.baidu.com/ai-doc/AISTUDIO/Tk39ty6ho#快速入门
用的是百度AI Stuido
和Jupyter Notebook一样(虽然我之前还没怎么用过,但读了官方文档后很快就可以上手)
request库和BeautifulSoup库

心得体会

今天的打卡营任务是实现爬虫抓取百度百科青春有你2的选手图片,想想很是激动,一直听说过爬虫,但从没实践过,今天终于要来实践一次,那就开始吧。
一开始就直接运行了作业的程序(小白,头铁),然后错误信息说没有上面的两个库,于是pip list走起,发现真没有,就用 pip install request和 pip install beautifulsoup4安装了,后来晚上老师讲课的时候才知道当天的作业说明中已经有了安装这两个库的代码,但是我没仔细看…尴尬

BeautifulSoup4是爬虫必学的技能。BeautifulSoup最主要的功能是从网页抓取数据,Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐使用lxml 解析器。

接下来遇到打印图片不是482张(缩略图),而是1000+张的问题,就很纳闷,于是逐行去找错误的地方,途中用到pdb.set_trace()调试(要import pdb先),在指定的地方插入即可,也挺方便的。
后来找到问题,原因是我没有指定进去选手个人的图像地址,把百度百科青春有你2的所有图片爬了下来…这个过程对我这个小白来说耗时十分之久,发现代码错误到解决问题的过程还得再快一些(不快哪有时间做别的事情呢)

在这次作业的过程中学到使用requests.get和BeautifulSoup完成一次爬虫任务,成就感满满,但同时也知道自己有多菜,好多基础的东西不熟——基础的python语句运用不熟练,对前端知识不了解——pic_list_url = bs.select(’.summary-pic a’)[0].get(‘href’)中为什么是’.summary-pic a’…

编程之路,还有很长的路要走呢

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值