- 博客(6)
- 资源 (5)
- 收藏
- 关注
原创 爬虫记录(6)——爬虫实战:爬取知乎网站内容,保存到数据库,并导出到Excel
前面几篇文字我们介绍了相关的爬虫的方法爬取网站内容和网站的图片,且保存到数据库中。今天呢,我们来次实战练习,爬取知乎网站跟话题网站top的几个问题和答案,然后保存到数据库中,最后把数据库中的所有内容再导出到Excel中。我们还是继续之前的代码,同样的代码就不贴出来了,如果有不了解的同学,可以查看之前的文章,或者文章末尾有又git网站可以自己下载查看所有代码。
2017-09-17 23:55:49 3152
原创 爬虫记录(5)——爬到的文件信息保存到数据库
继续之前的博文, 我们这里用的是mysql数据库,首先得导入mysql驱动jar包 mysql-connector-java-6.0.6.jar。 1、编写一个JDBC连接池ConnectionPoolpackage com.dyw.crawler.util;import java.sql.Connection;import java.sql.DatabaseMetaData;impo
2017-09-11 15:02:52 2520
原创 爬虫记录(4)——多线程爬取图片并下载
还是继续前几篇文章的代码。当我们需要爬取的图片量级比较大的时候,就需要多线程爬取下载了。这里我们用到forkjoin pool来处理并发。 1、DownloadTask下载任务类package com.dyw.crawler.util;import java.io.File;import java.io.InputStream;import java.util.List;import j
2017-09-07 17:26:58 899
原创 爬虫记录(3)——模拟登录获取cookie,访问私信页面
继上一篇博文 爬虫记录(2)——简单爬取一个页面的图片并保存 ,今天我们通过httpclient模拟表单登录开源中国,获取cookie,然后通过cookie访问个人私信页面。 1、准备工作模拟表单登录,首先需要知道登录的url,以及登录表单的字段。这里我们图一中故意输入一个错误的用户名和密码,然后通过查看图二中的network中,发现登录的url是https://www.osch
2017-09-06 16:22:26 4834 1
原创 爬虫记录(2)——简单爬取一个页面的图片并保存
继上一篇文章 爬虫记录(1)——简单爬取一个页面的内容并写入到文本中 这代码,我们在之前类中增加了一些其他的方法 1、爬虫工具类,用来获取网页内容package com.dyw.crawler.util;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import ja
2017-09-04 11:15:30 1553 2
原创 爬虫记录(1)——简单爬取一个页面的内容并写入到文本中
1、爬虫工具类,用来获取网页内容package com.dyw.crawler.util;import java.io.BufferedReader;import java.io.InputStream;import java.io.InputStreamReader;import java.net.URL;import java.net.URLConnection;/** * 爬虫工具
2017-09-01 17:24:19 8624
moco-runner-0.11.0-standalone.jar
2017-10-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人