爬虫
文章平均质量分 90
程序员duke
喜欢编程带来的成就感!
展开
-
网络爬虫大型教程(二)
初见网络爬虫一 基础爬取1. 获取网页内容urllib是Python的标准库,包含了从网络请求数据,处理cookie,甚至改变像请求头和用户代理这些元数据的函数 from urllib.request import urlopenhtml = urlopen("http://pythonscraping.com/pages/page1.html")print(htm...原创 2018-05-14 17:57:17 · 1055 阅读 · 0 评论 -
java 爬虫大型教程(一)
java 爬虫大型教程(一)写在开始前,既然是大型教程,那就从最初始的环境变量开始搭建说起。电脑环境:我的电脑是macbook pro,因此系统环境变量配置是和Windows不一样的,如果你的电脑是Windows系统,可以百度下相关环境变量配置。爬虫框架:使用的是webmagic,这是国内不错的爬虫框架,借鉴于python的scrapy框架。Java环境搭建首先提一句,从2019年1月开...原创 2019-01-24 21:48:35 · 6262 阅读 · 2 评论 -
java 爬虫大型教程(二)
java 爬虫大型教程(二)编写基本的爬虫1. 实现PageProcessor这部分我们直接通过CdnRepoPageProcessor这个例子来介绍PageProcessor的编写方式。PageProcessor定制分为三个部分,分别是爬虫的配置、页面元素的抽取和链接的发现。import us.codecraft.webmagic.Page;import us.codecraft.we...原创 2019-01-28 17:35:09 · 2131 阅读 · 0 评论 -
java 爬虫大型教程(三)
java 爬虫大型教程(三)基本爬虫进阶(一)1. 使用Pipeline保存结果好了,爬虫编写完成,现在我们可能还有一个问题:我如果想把抓取的结果保存下来,要怎么做呢?WebMagic用于保存结果的组件叫做Pipeline。例如我们通过“控制台输出结果”这件事也是通过一个内置的Pipeline完成的,它叫做ConsolePipeline。那么,我现在想要把结果用Json的格式保存下来,怎么做...原创 2019-01-29 14:09:59 · 2057 阅读 · 1 评论 -
java 爬虫大型教程(四)
java 爬虫大型教程(四)基本爬虫进阶(二)1. 爬虫的监控你可以利用爬虫的监控功能查看爬虫的执行情况——已经下载了多少页面、还有多少页面、启动了多少线程等信息。该功能通过JMX实现,你可以使用Jconsole等JMX工具查看本地或者远程的爬虫信息。如果你完全不会JMX也没关系,因为它的使用相对简单,这次教程比较详细的讲解使用方法。如果要弄明白其中原理,你可能需要一些JMX的知识,推荐阅...原创 2019-01-29 20:15:53 · 1131 阅读 · 0 评论