感谢:https://zhuanlan.zhihu.com/p/21255850,提供素材,让我可以照葫芦画瓢
在这里先总结一下爬虫的步骤:
1.确定要爬取的网页源
2.借助集搜客的GMS工作台生成规则
3.编写几行代码,点击开始运行
其实我们的大部分时间是花在生成规则这样的一个步骤上
下载并安装好集搜客,打开ms谋数台,在浏览器中选中要爬取的内容,并为之命名,点击工作台的测试即可看到效果。
然后生成的规则就在数据规则中。
接下来就是编写代码了:
from urllib import request from lxml import etree import time xslt_root = etree.XML("""\ <xsl:s