简单的爬虫使用urllib就好了,以一个小例子示范:
爬取一个网站的所有出版社的名字,并写入txt。
URL: https://read.douban.com/provider/all
首先,分析一下源码(打开网页按F12),找到源码的格式是这样的:
<div class="name">白马时光</div>
<div class="name">读客文化</div>
则用正则表达式可以写成:pat=“<div class="name">()</di
简单的爬虫使用urllib就好了,以一个小例子示范:
URL: https://read.douban.com/provider/all
首先,分析一下源码(打开网页按F12),找到源码的格式是这样的:
<div class="name">白马时光</div>
<div class="name">读客文化</div>
则用正则表达式可以写成:pat=“<div class="name">()</di