![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
java 爬虫
茅坤宝骏氹
语言:Java、C/C++、C#、Python、Linux Shell。
框架:Spring、Spring MVC、Spring Boot、Spring Cloud、Hibernate、Mybatis、Freemarker、Velocity。
前端:HTML5、CSS3、JavaScript、Bootstrap、JQuery、Vue、React。
数据库:oracle、mysql、MongoDB、HBase。
缓存:Memcache、Redis。
消息队列:kafka。
大数据:Hadoop、Hive、Sqoop、Flume、Spark、Strom、OpenTSDB、Druid。
展开
-
零基础写Java知乎爬虫之进阶篇
转载自 零基础写Java知乎爬虫之进阶篇前面几篇文章,我们都是简单的实现了java爬虫抓取内容的问题,那么如果遇到复杂情况,我们还能继续那么做吗?答案当然是否定的,之前的仅仅是入门篇,都是些基础知识,给大家练手用的,本文我们就来点高大上的东西说到爬虫,使用Java本身自带的URLConnection可以实现一些基本的抓取页面的功能,但是对于一些比较高级的功能,比如重定向的处理,HTML标记的去除,...转载 2018-06-04 09:04:56 · 535 阅读 · 0 评论 -
java爬虫的2种爬取方式(HTTP||Socket)简单Demo(一)
转载自 java爬虫的2种爬取方式(HTTP||Socket)简单Demo(一)最近在找java的小项目自己写着玩,但是找不到合适的,于是写开始学一点爬虫,自己也是感觉爬虫比较有趣。这里自己找了一个教程,这一次写的是基于Socket和http方式爬取.小项目结构图:(1)SystemContorl类,实现整个爬虫任务调度,爬取任务package com.simple.control; i...转载 2018-06-04 09:04:33 · 955 阅读 · 1 评论 -
java爬虫之基于httpclient的简单Demo(二)
转载自 java爬虫之基于httpclient的简单Demo(二)延续demo1的 java爬虫的2种爬取方式(HTTP||Socket)简单Demo(一),demo2出炉啦,大家想学爬虫都可以从这个网盘学习哦:https://pan.baidu.com/s/1pJJrcqJ#list/path=%2F免费课程,非常不错。其实还是主要学习一个httpclient,httpclient全是英文文档,...转载 2018-06-04 09:04:24 · 294 阅读 · 0 评论 -
JSOUP 教程—— Java爬虫,简易入门,秒杀htmlparser
转载自 JSOUP 教程—— Java爬虫,简易入门,秒杀htmlparser关于爬虫,之前一直用做第一个站的时候,记得那时候写的 爬虫 是爬sina 的数据,用的就是 htmlparser 可能是由于好奇和满足我当时的需求,那开始就各种写啊,一个页面,把需要的内容处理下来,复杂的写完后不写注释自己都看不懂,一直我也知道 JSOUP 好,也感觉没空学习新的 爬虫 (完全是借口啊)。最近我试...转载 2018-06-04 09:04:14 · 581 阅读 · 0 评论 -
javafx爬取网页并且初始化网页数据
一、需求场景编写爬虫爬取网页的信息,而网页的信息经常是未初始化,没有办法获取网页的数据信息。网页加载数据有两种类型:第一种是网页请求回来,数据已经加载好了;第二种是网页的数据信息还没有初始化,通过浏览器的脚本进行异步请求初始化数据。 二、解决方法通过使用javafx的WebEngine 把网页加载回来初始化,并执行脚本把初始化网页转成html。import com.sun...原创 2018-12-22 15:01:14 · 1505 阅读 · 1 评论