爬虫
文章平均质量分 90
数据学习(Datalearner)
关注数据科学 关注科技行业 关注人工智能 关注一切促进人类生活美好的新技术
展开
-
Java爬虫入门简介(一) —— HttpClient请求及其使用方法
原文地址:http://www.datalearner.com/blog/1051501160659926数据是科研活动重要的基础。本系列博客将讲述如何使用Java工具获取网络的数据。我们讲述一下爬虫的基本原理。再说明如何使用HttpClient请求路径,包括带参数请求,设置Headers等。原创 2017-07-27 21:06:48 · 9742 阅读 · 4 评论 -
Java爬虫入门简介(三)——HttpClient保存使用Cookie登录
在使用HttpClient作为客户端请求数据的时候,我们常常需要以一个用户的身份多次请求一个网站内的多种资源。例如,我一次登录后,后面希望以这个身份继续访问不用重新登录。这里就可以使用cookie了。原创 2017-09-22 20:03:37 · 8908 阅读 · 2 评论 -
Java爬虫入门简介(二) —— Jsoup解析HTML页面
上一篇博客我们已经介绍了如何使用HttpClient模拟客户端请求页面了。这一篇博客我们将描述如何解析获取到的页面内容。上一节我们获取了 http://www.datalearner.com/blog_list 页面的HTML源码,但是这些源码是提供给浏览器解析用的,我们需要的数据其实是页面上博客的标题、作者、简介、发布日期等。在这篇博客里,我们将简单介绍Jsoup解析HTML页面的操作。原创 2017-08-25 22:05:51 · 6720 阅读 · 2 评论 -
Java爬虫入门简介(四)——抓包工具的使用以及使用HttpClient模拟用户登录的访问
原文地址:http://www.datalearner.com/blog/1051509365677137网络爬虫需要解决的一个重要的问题就是要针对某些需要用户名和密码访问的页面可以模拟用户自动登录。在这一篇博客中我们将介绍如何使用Chrome浏览器自带的抓包工具分析页面并模拟用户自动登录。我们会以CSDN的用户登录为例,讲述如何使用抓包工具获取登录方式并使用HttpClient工具模拟登陆访问。在原创 2017-10-31 21:11:50 · 12319 阅读 · 3 评论