【爬虫】十分钟写一个简单爬虫

本文主要介绍selenium(一个测试工具)来模拟登陆并爬取数据
if name == 'main':
driver = crate_rlw()
url = 'http://*****.com/knowledge/article/detailcontent.html?articleId={0}'
for i in range(1,5077):
vi_rlw(url.format(i),driver)
time.sleep(6)
driver.close()

上述代码为调度程序:
url 则为分析出来的,主要方法就是熟悉一下目标网站的url的格式,然后去遍历全部的url(下面的代码)
第二行代码怎是登陆代码如下:
def crate_rlw():
url ='http://*****.com/web/login'
driver = webdriver.Chrome('./chromedriver')
print url
driver.get(url)
driver.maximize_window()
driver.implicitly_wait(30)
driver.find_element_by_name('username').send_keys('*')
driver.find_element_by_name('password').send_keys('*')
driver.find_element_by_id('loginBtn').click()
return driver

上面的代码是登陆目标网站,并返回dirver,这里会有登陆相关的信息
这里是用selenium来处理的 不懂可以查看selenium相关教程。
def vi_rlw(url,driver):
driver.get(url)
driver.implicitly_wait(30)

这里还需要好多处理,我只做了简单的访问,只是展示的一个过程。
数据处理部分是需要后期来做的。

还有要说的就是:一些网站会限制你爬取数据,但是大多数网站都是友好的,但是这并不表示你可以肆无忌惮的毫无限制的去爬取。爬取的时间最好设置成晚上或者。。。。
还有就是不要对目标网站造成不必要的‘伤害’。

爬虫并不难,且行且珍惜!

2016.11.14中午

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值