爬虫Spider
乔治大哥
脚踏实地,仰望星空。
展开
-
爬虫 spider12——暂停小总结_爬虫流程_微服务架构流程
工具idea所用的技术类型:Maven+mybatis+ssm+springboot+springcloud+redis+elasticsearch+mysql在springcloud中运用到Eureka服务注册与发现的集群分布+feign框架实现的rest接口调用+ribbon的负载均衡+Hystrix的处理分布式系统的延迟和容错的开源库爬虫流程:确定首页URL,在...原创 2019-10-16 22:45:13 · 435 阅读 · 2 评论 -
爬虫 spider11——搭建分布式架构&通过feign技术,开发服务消费者
搭建分布式架构,把3中开发的服务提供者,注册到eureka server(三台,7001,7002,7003)开发服务消费者(可以直接访问3中的服务),调试成功后,通过feign技术,开发服务消费者,并注册到eureka server中。接https://blog.csdn.net/qq_41946557/article/details/102584047搭建elk平台,开发...原创 2019-10-16 20:18:27 · 586 阅读 · 0 评论 -
爬虫 spider10——搭建elk平台,开发服务提供者
第一步:爬取指定数据,去重复,并存储到mysql。Springboot+ssm+定时(定时器)爬取+redis去重+mybatis保存。详情请看爬虫 spider09——爬取指定数据,去重复,并存储到mysqlhttps://blog.csdn.net/qq_41946557/article/details/102573282第二步:搭建elk平台,把mysql中数据导入es...原创 2019-10-16 14:46:22 · 460 阅读 · 0 评论 -
爬虫 spider09——爬取指定数据,去重复,并存储到mysql
爬取指定数据,去重复,并存储到mysql。技术栈:Springboot+ssm+定时(定时器)爬取+redis去重+mybatis保存一、创建父项目Spiderpom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" ...原创 2019-10-15 20:07:25 · 552 阅读 · 0 评论 -
爬虫 spider08——爬取腾讯娱乐新闻【使用redis去重】
根据爬虫 spider07——爬取腾讯娱乐新闻https://blog.csdn.net/qq_41946557/article/details/102566143进行修改!代码:import com.alibaba.fastjson.JSON;import com.offcn.springcloud.jedis.JedisPoolUtil;import org.ap...原创 2019-10-15 15:06:26 · 295 阅读 · 0 评论 -
爬虫 spider07——爬取腾讯娱乐新闻
四要素:首先,确定首页URL 【谷歌浏览器 F12】【https://new.qq.com/ch/ent/】代码展示:实体类News:public class News { public String appId;//app_id public String title;//title public Strin...原创 2019-10-15 14:28:13 · 534 阅读 · 0 评论 -
爬虫 spider06——解析数据
解析数据本质上就是在解析HTML文档,如何解析HTML文档呢? js 和 jQuery 就可以解析HTML文档, 但是js 和jQuery是前端的技术, 而目前HTML代码存储在java代码中, 故无法使用js和jQuery来解析HTML文档 那么需要使用一种可以在java客户端来解析HTML文档的技术 --->jsoup官网:https://jsoup.orgjsou...原创 2019-10-15 10:42:10 · 299 阅读 · 0 评论 -
爬虫 spider05——使用httpclient发送get请求、post请求
百度解释HttpClient 是Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。httpClient专为java发送http请求而生的, 如果要httpClient ,需要先进行导包 <dependency>...原创 2019-10-14 23:17:49 · 393 阅读 · 0 评论 -
爬虫 spider04——原生jdk发送post请求
import sun.net.www.protocol.http.HttpURLConnection;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.net.URL;impo...原创 2019-10-14 23:11:11 · 264 阅读 · 0 评论 -
爬虫 spider03——原生jdk发送get请求
import sun.net.www.protocol.http.HttpURLConnection;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.net.Malformed...原创 2019-10-14 23:09:42 · 220 阅读 · 0 评论 -
爬虫 spider02——详析http
HTTP协议1.简介HTTP协议(Hyper Text Transfer Protocol,超文本传输协议),是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。HTTP基于TCP/IP通信协议来传递数据。HTTP基于客户端/服务端(C/S)架构模型,通过一个可靠的链接来交换信息,是一个无状态的请求/响应协议。2.特点(1)HTT...原创 2019-10-14 22:42:38 · 304 阅读 · 0 评论 -
爬虫 spider01——基本概念
1、爬虫是什么 网络爬虫本质上就是一个程序 或者 脚本, 网络爬虫按照一定规则获取互联网中信息(数据), 一般来说爬虫被分为三大模块: 获取数据 解析数据 保存数据2、爬虫的价值爬虫的价值本质就是获取数据的价值. 数据的价值越高, 爬虫的价值越高数据的价值: 一切皆为数据 例如: 获取到了大量的用户信息(基本信息, 购物信息, 浏览信息): 广告推荐 用户行...原创 2019-10-14 22:40:35 · 305 阅读 · 0 评论