爬虫学习

背景

前一段时间在学习hadoop,但一直想不到如何利用hadoop做项目,而且一直希望可以学习python,因此利用此次机会,学习爬虫,希望可以爬写感兴趣的内容,使用hadoop进行处理,现将近阶段学习爬虫所参考文档记录如下.

Java爬虫

Java如何构造HTTP请求

  1. HttpUrlConnection使用详解
  2. HttpClient使用详解

crawler4j

  1. Java开源爬虫框架crawler4j
  2. crawler4j 爬爬知多少
  3. crawler4j github

Python爬虫

支撑知识

  1. anaconda 入门
  2. Python教程

scrapy

  1. scrapy爬虫框架教程(一)– Scrapy入门
  2. Scrapy爬虫框架教程(二)– 爬取豆瓣电影TOP250
  3. Scrapy爬虫框架教程(三)– 调试(Debugging)Spiders
  4. Scrapy爬虫框架教程(四)– 抓取AJAX异步加载网页
  5. Scrapy入门教程— Scrapy 0.24.6 文档
  6. Scrapy最新版本英文教程

总结

  1. 爬虫框架也只是一个框架而已,具体从何处爬取何种数据均需要在代码中指定,难点在于分析网页.
  2. python写起来还是比Java要简单许多,只是因为python是动态语言,无法像Java一样找到被调用的方法的源头.

参考

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值