黑板客爬虫闯关的第一关
附一下网址: http://www.heibanke.com/lesson/crawler_ex00/
自己手动的填了几个发现太多,填补过来。
只好巧妙地利用了python爬虫技术,百度了不少资料,最后终于成功了!
具体说一下步骤:
1.安装python
去官网下载即可。
2.安装selenium
win键 + R 运行 cmd , 在cmd里输入 pip install selenium
3.下载chromedriver
http://chromedriver.storage.googleapis.com/index.html
把下载好的chromedriver放在python的安装目录下
测试一下能不能用,打开idle,新建一个文件:
from selenium import webdriver
browser = webdriver.Chrome()
browser.get('http://www.baidu.com/')
可以成功打开百度说明成功。
4.代码运行
# coding=utf-8
import requests, re
from selenium import webdriver
url = 'http://www.heibanke.com/lesson/crawler_ex00/'
browser = webdriver.Chrome()
while True:
# download the page
print("Forward to page %s ..." % url)
browser.get(url)
elem = browser.find_element_by_tag_name('h3')
# get the url of the for the next page
print(elem.text)
number = re.findall("\d+", elem.text)
if number == []:
print('The end.')
#browser.quit()
break;
else:
url = 'http://www.heibanke.com/lesson/crawler_ex00/' + number[0] # 拼接新地址
最终成功了,谢谢大家的阅读。