爬虫学习
文章平均质量分 62
Jason__sz
中山大学信息与计算专业本科在读,什么都不会
展开
-
外链跳转
写一个爬虫,实现外链间的随机跳转。若某页面没有外链,则随机跳转到一个内链,然后继续收集外链。代码如下:from urllib.request import urlopenfrom urllib.parse import urlparsefrom bs4 import BeautifulSoupimport reimport datetimeimport random原创 2018-01-23 21:39:15 · 845 阅读 · 0 评论 -
收集整个网站的数据
创建一个爬虫从一个页面跳到另一个页面,来收集维基百科的页面标题、正文的第一个段落,以及编辑页面的连接。代码如下:from urllib.request import urlopenfrom bs4 import BeautifulSoupimport repages = set()def getLinks(pageurl): global pages原创 2018-01-23 16:36:43 · 433 阅读 · 0 评论