2017年09月_丁垠午

10月 09月 08月 07月 06月

原创爬虫记录（6）——爬虫实战：爬取知乎网站内容，保存到数据库，并导出到Excel

前面几篇文字我们介绍了相关的爬虫的方法爬取网站内容和网站的图片，且保存到数据库中。今天呢，我们来次实战练习，爬取知乎网站跟话题网站top的几个问题和答案，然后保存到数据库中，最后把数据库中的所有内容再导出到Excel中。我们还是继续之前的代码，同样的代码就不贴出来了，如果有不了解的同学，可以查看之前的文章，或者文章末尾有又git网站可以自己下载查看所有代码。

2017-09-17 23:55:49 3152

原创爬虫记录（5）——爬到的文件信息保存到数据库

继续之前的博文，我们这里用的是mysql数据库，首先得导入mysql驱动jar包 mysql-connector-java-6.0.6.jar。 1、编写一个JDBC连接池ConnectionPoolpackage com.dyw.crawler.util;import java.sql.Connection;import java.sql.DatabaseMetaData;impo

2017-09-11 15:02:52 2520

原创爬虫记录（4）——多线程爬取图片并下载

还是继续前几篇文章的代码。当我们需要爬取的图片量级比较大的时候，就需要多线程爬取下载了。这里我们用到forkjoin pool来处理并发。 1、DownloadTask下载任务类package com.dyw.crawler.util;import java.io.File;import java.io.InputStream;import java.util.List;import j

2017-09-07 17:26:58 899

原创爬虫记录（3）——模拟登录获取cookie，访问私信页面

继上一篇博文爬虫记录（2）——简单爬取一个页面的图片并保存，今天我们通过httpclient模拟表单登录开源中国，获取cookie，然后通过cookie访问个人私信页面。 1、准备工作模拟表单登录，首先需要知道登录的url，以及登录表单的字段。这里我们图一中故意输入一个错误的用户名和密码，然后通过查看图二中的network中，发现登录的url是https://www.osch

2017-09-06 16:22:26 4834 1

原创爬虫记录（2）——简单爬取一个页面的图片并保存

继上一篇文章爬虫记录（1）——简单爬取一个页面的内容并写入到文本中这代码，我们在之前类中增加了一些其他的方法 1、爬虫工具类，用来获取网页内容package com.dyw.crawler.util;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import ja

2017-09-04 11:15:30 1553 2

原创爬虫记录（1）——简单爬取一个页面的内容并写入到文本中

1、爬虫工具类，用来获取网页内容package com.dyw.crawler.util;import java.io.BufferedReader;import java.io.InputStream;import java.io.InputStreamReader;import java.net.URL;import java.net.URLConnection;/** * 爬虫工具

2017-09-01 17:24:19 8624

moco-runner-0.11.0-standalone.jar

moco-runner-0.11.0-standalone.jar 模拟客户端jar包 moco-runner-0.11.0-standalone.jar

2017-10-19

Maven，Servlet，JSP，MYSQL项目

2016-06-28

flappy bird Java代码

游戏flappy bird java代码，里面有详细涉及思路和代码

2016-06-11

Java8源代码

Java8源码，方便学习java8

2016-06-11

JavaWeb物流管理系统，SSh

JavaWeb，SSH，JDK1.7，tomcat，有设计文档和PPT。适合javaWeb初学者。

2016-05-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 爬虫记录（6）——爬虫实战：爬取知乎网站内容，保存到数据库，并导出到Excel

原创 爬虫记录（5）——爬到的文件信息保存到数据库

原创 爬虫记录（4）——多线程爬取图片并下载

原创 爬虫记录（3）——模拟登录获取cookie，访问私信页面

原创 爬虫记录（2）——简单爬取一个页面的图片并保存

原创 爬虫记录（1）——简单爬取一个页面的内容并写入到文本中