JAVA爬虫系列
codingCoge
人生是场马拉松
QQ:
1115106468
展开
-
Java爬虫入门(二)——HttpClient请求
前言:突然心血来潮想学一下爬虫,本来是打算学python的(学习成本不高),不过既然是搞java的,那就用java好啦,毕竟知识可以复用,而且java的爬虫框架库也不少。于是开始了爬虫填坑史 网上找了一些java爬虫的资料: Java使用HttpClient发送Get和Post请求 爬虫一般分三步:1. 建立网络连接,爬取数据2. 建立正则表达式规范3. 使用正则表达式爬取获...原创 2018-08-03 17:24:56 · 3950 阅读 · 1 评论 -
Java爬虫入门(三)——正则表达式
正则表达式: 主要用于操作字符串的规则 用于检索替换那些符合规定的文本 预定义字符. 任何字符 . 就单纯代表. \d是 数字 \D 非数字 \s 空白字符 包括\t \n \r \S 非空白字符 \w 单词字符 比如 a—z A-Z _还有0到9 \W 非单词字符如果预定义字符没有加上数量词 那就只能匹配一个字符 数量词:? 一次或...原创 2018-04-25 21:40:41 · 4053 阅读 · 0 评论 -
Java爬虫入门(五)——缓冲流写入
缓冲流实际是没有读写作用的 所以需要传入一个流进入 可以传入字节流 也可以传入一个字符流 先来看一下缓冲输出字节流: BufferedOutputStream出现的目的是为了提高写数据的效率。 内部也是维护了一个8kb的字节数组而已。 BufferedOutputStream 要注意的细节 1. 使用BufferedOutStream写数据的时候,它的write方法是是先...原创 2018-04-24 16:47:56 · 1729 阅读 · 0 评论 -
Java爬虫入门(四)——线程池和连接池
前言:简而言之,这一块内容可以直接Google ,网上资料很多,我就不在这里多累赘了线程池:线程池,这一篇或许就够了 Java 四种线程池的用法分析总结: 这次项目中线程池的目的是:1. A线程池多并发爬取小说网站的小说链接, 加入到另一个线程池(实现分页爬取整个网站)2. 多并发爬取获取到的小说简单来说: 页面层面获取小说是多并发, 小说下载是多并...原创 2018-08-06 18:23:34 · 2768 阅读 · 0 评论 -
Java爬虫入门(一)——项目介绍
前言:突然心血来潮想学一下爬虫,本来是打算学python的(学习成本不高),不过既然是搞java的,那就用java好啦,毕竟知识可以复用,而且java的爬虫框架库也不少。于是开始了爬虫填坑史 网上找了一些java爬虫的资料: Java使用HttpClient发送Get和Post请求 零基础写Java知乎爬虫之先拿百度首页练练手 java爬虫入门 爬虫一般分三步:1. 建立...原创 2018-08-06 19:26:05 · 14745 阅读 · 3 评论 -
Java爬虫入门(六)——课程设计报告
Java高级程序设计课程设计任务书一 题目Java并发爬取静态小说系统二 目的与要求:2.1目的:JAVA爬虫并发爬取静态小说网站的全部小说:https://www.bookbao8.com/BookList-c_0-t_2-o_1.html2.2要求:(1)掌握Java高级程序设计的基础知识,爬虫知识,线程池连接池和正则表达式匹配以及相关多线程内容进行Java爬虫.(2)将Ja...原创 2019-01-09 20:36:14 · 4825 阅读 · 0 评论