爬虫
俺有一策
111111111111
展开
-
http协议
http协议学习系列 1. 基础概念篇 1.1 介绍 HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写。它的发展是万维网协会(World Wide Web Consortium)和Internet工作小组IETF(Internet Engineering Task Force)合作的结果,(他们)最终发布了一系列的RFC,RFC 1945定义转载 2017-07-17 17:17:27 · 1883 阅读 · 0 评论 -
Kafka安装
Step 1: 下载Kafka tar -xzf kafka_2.9.2-0.8.1.1.tgz cd kafka_2.9.2-0.8.1.1 Step 2: 启动服务 Kafka用到了Zookeeper,所有首先启动Zookper,下面简单的启用一个单实例的Zookkeeper服务。可以在命令的结尾加个&符号,这样就可以启动后离开控制台。 bin/zookeeper-ser转载 2017-12-29 10:46:22 · 257 阅读 · 0 评论 -
学习用java基于webMagic+selenium+phantomjs实现爬虫Demo爬取淘宝搜索页面
团队的技术栈以java为主,并且我的主语言是Java,研究时间不到一周。基于以上原因固放弃python,选择java为语言来进行开发。等之后有时间再尝试python来实现一个。 本次爬虫选用了webMagic+selenium+phantomjs,选用他们的原因如下: webMagic(v:0.73),一个轻量级的Java爬虫框架(git地址:https://git转载 2018-01-22 15:03:57 · 1155 阅读 · 0 评论