网络爬虫
文章平均质量分 75
真快啊夏天
这个作者很懒,什么都没留下…
展开
-
第3节---爬取知乎‘美女’
这一节,我们来实现爬取知乎‘美女’话题下的子问题以及相关问题回答的赞同数前三名。上两节,我们爬取了百度首页的源码,实现了百度LOGO的抓取和下载。这一次我们的目标是知乎。首先确定我们需要爬取的东西。1.问题2.问题描述3.回答者4.回答赞同数5.回答内容(包括图片)5.回答者个人首页链接原创 2017-05-23 17:35:48 · 1761 阅读 · 2 评论 -
利用URLConnection来发送POST和GET请求
URL的openConnection()方法将返回一个URLConnection对象,该对象表示应用程序和 URL 之间的通信链接。程序可以通过URLConnection实例向该URL发送请求、读取URL引用的资源。通常创建一个和 URL 的连接,并发送请求、读取此 URL 引用的资源需要如下几个步骤:(1)通过调用URL对象openConnection()方法来创建URLConnecti转载 2017-05-14 20:31:26 · 472 阅读 · 0 评论 -
第4节---模拟登陆知乎
上一节爬取了知乎美女精华话题下的子问题,并不需要登陆,直接抓取页面就可以了。但有些页面需要登陆后才可见。比如 https://www.zhihu.com/topic登陆状态下是非登陆状态,当提到登陆,必须对Http协议有一些了解,推荐《图解Http》。通俗的说,HTTP 是一种无状态的协议, 协议本身不保留之前的一切请求信息和响应信息,也就是原创 2017-05-25 21:07:21 · 485 阅读 · 0 评论 -
HttpURLConnection与HttpClient浅析
源地址:http://blog.csdn.net/zhliro/article/details/46877519HttpURLConnection与HttpClient浅析1. GET请求与POST请求HTTP协议是现在Internet上使用得最多、最重要的协议了,越来越多的Java应用程序需要直接通过HTTP协议来访问网络资源。在介绍HttpURLConnecti转载 2017-05-15 21:05:31 · 313 阅读 · 0 评论 -
第1节---分别用HttpURLConnection和HttpClient爬取百度首页
我们的第一节,抽取百度页面源码,分别使用HttpURLConnection和HttpClient实现。需要了解HttpURLConnection和HttpClient有什么异同的点击这里如果不清楚GET访问和POST访问的的同学可以看看W3的解释《GET与POST》接下来,我们用java来实现一个爬取百度首页源码的程序有前端基础的小伙伴肯定知道,这个页面是由HTML+CSS原创 2017-05-15 22:51:18 · 779 阅读 · 0 评论 -
第2节---小任务,爬取百度LOGO链接并下载图片
右键点击百度首页LOGO,审查元素,我们可以看到以下内容在HTML处理中,经常会用到正则表达式,对内容进行过滤,提取目标内容没有正则基础的小伙伴可以先了解下点击打开在线正则表达式匹配测试点击打开我们引入一个匹配模板 public static String RegexString(String targetStr,String patternStr)原创 2017-05-17 22:11:07 · 1426 阅读 · 0 评论 -
知乎爬虫---总结我的Java课程设计
这次课程设计的技术点1.Java线程池、连接池2.JDBC编程原创 2017-06-06 16:47:16 · 1786 阅读 · 0 评论