最精简的爬虫 --仅需4行代码(python)
刚刚整理了下爬虫系列,于是乎就开始了第一次的技术分享
今天,我们主要讲述的是思路,思路,思路。
相比起,直接贴代码,思路显的更为重要
当初,自己的坑,希望后面的人可以避免
*********
爬虫逻辑:
1,请求网页(利用python向web服务器进行请求)
2,通过匹配找到对应的目标(F12查看网页的结构)
3,下载对应目标
方法:(2种)
一种是百度上陈述的传统方法,通过urllib库来请求,并且urllib.request.urlretrieve 来对目标下载
另一种是使用简便,逻辑清晰,代码复杂度率低
方法一:
^这里我们主要介绍的 一种简便的,实用的,逻辑清晰,代码量少的
import requests #请求网页
from bs4 import BeautifulSoup #分析html的结构
我们主要利用到2个库:requests,bs4
库的用法,读者请自行百度,
tips:bs4库非内置库,需要另行安装:pip3 install beautifulsoup4
然后,我们再对目标进行写入: