14行代码,爬完丁香园论坛首页

最近对爬虫很有兴趣,又没项目来让我练手,直到上周五有个想做医疗行业内容创业的老板联系我,给了我一堆网站,说是要做数据挖掘,当时博主就来劲了,说开练就开练。

----------分割线--------------

项目背景介绍完毕,接下来博主将不定期更新该爬虫的学习,分析和码代码的过程~~

准备工具:

语言:python

库:requests,beautifulsoup

相关工具:firefox ,HttpRequester

调试:ipython

爬虫目标:http://www.dxy.cn/bbs/index.html


First step

——

看看目标网页都有啥


论坛长这样。。。。。。。略丑,医生嘛,突出实用,反正本博主只识字,不知道上面写的啥。。。。。

接下来看看代码:


看来主要内容在这个叫 boardbox 的class 里面,mark 一下 boardbox,

接下来看看这里面都有些啥呢:

主要的标签都在这里了。。。。

内容都在这里面了

Second step

——-

直接上代码:


来吧,骚年,run起来~~~



本章总结:python 就是屌,轮子多了就是好,两库上场,没有什么爬不了~~

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值