【爬虫】十分钟写一个简单爬虫

最新推荐文章于 2024-05-13 08:38:41 发布

风雨Yzz

最新推荐文章于 2024-05-13 08:38:41 发布

阅读量4.8k

点赞数

本文链接：https://blog.csdn.net/guojieaix/article/details/53581138

版权

本文主要介绍selenium（一个测试工具）来模拟登陆并爬取数据
if name == 'main': driver = crate_rlw() url = 'http://*****.com/knowledge/article/detailcontent.html?articleId={0}' for i in range(1,5077): vi_rlw(url.format(i),driver) time.sleep(6) driver.close()
上述代码为调度程序：
url 则为分析出来的，主要方法就是熟悉一下目标网站的url的格式，然后去遍历全部的url（下面的代码)
第二行代码怎是登陆代码如下：
def crate_rlw(): url ='http://*****.com/web/login' driver = webdriver.Chrome('./chromedriver') print url driver.get(url) driver.maximize_window() driver.implicitly_wait(30) driver.find_element_by_name('username').send_keys('*') driver.find_element_by_name('password').send_keys('*') driver.find_element_by_id('loginBtn').click() return driver
上面的代码是登陆目标网站，并返回dirver，这里会有登陆相关的信息
这里是用selenium来处理的不懂可以查看selenium相关教程。
def vi_rlw(url,driver): driver.get(url) driver.implicitly_wait(30)
这里还需要好多处理，我只做了简单的访问，只是展示的一个过程。
数据处理部分是需要后期来做的。

还有要说的就是：一些网站会限制你爬取数据，但是大多数网站都是友好的，但是这并不表示你可以肆无忌惮的毫无限制的去爬取。爬取的时间最好设置成晚上或者。。。。
还有就是不要对目标网站造成不必要的‘伤害’。

爬虫并不难，且行且珍惜！

2016.11.14中午

风雨Yzz

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【爬虫】十分钟写一个简单爬虫

本文主要介绍selenium（一个测试工具）来模拟登陆并爬取数据ifname == 'main':driver = crate_rlw()url = 'http://*****.com/knowledge/article/detailcontent.html?articleId={0}'for i in range(1,5077):vi_rlw(url.format(i),
复制链接

扫一扫