爬虫
文章平均质量分 57
筱葫芦XiaoHuLu
今天不学习,明天变垃圾
展开
-
Java爬虫实战之猫眼一httpclient、jsoup、mysql
首先爬之前我们应该先想好我们想要在这个网站获取的目标信息都有哪些.我们可以先打开网站猫眼电影,记得要登录上自己的账号,我们稍后会用上.点击这个电影,我们可以看到有关这个电影的具体信息,在这个网页我们主要爬取剧情简介即可:我们主要爬取一个电影的信息如下,一共有两页; private String num;//电影编号 private String name;//电影名字 private String score;//电影评分 private String type;//原创 2021-08-02 11:08:15 · 653 阅读 · 0 评论 -
Java爬虫入门(三)一Jsoup
Java爬虫入门 三一、Jsoup二、Dom方式遍历文档三、Selector选择器组合使用一、Jsoup简介:jsoup是一款Java的HTML解析器,主要用来对HTML解析,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。功能如下:1.从一个URL,文件或字符串中解析HTML;2.使用DOM或CSS选择器来查找、取出数据;3.可操作HTML元素、属性、文本( 由于Jsoup一般用于解析爬到的数据原创 2021-08-01 21:58:23 · 210 阅读 · 0 评论 -
Java爬虫入门(二)一HttpClient、连接池、请求参数配置
Java爬虫入门 二 **GET请求:**Post请求连接池请求参数配置简介: HttpClient是一个HTTP客户端编程工具,用于获取网页数据添加依赖在网页 https://mvnrepository.com/ 查找自已所需要的依赖<!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/httpclient --><dependency> <groupId>org.apach原创 2021-08-01 12:27:12 · 674 阅读 · 0 评论 -
Java爬虫入门(一)
Java爬虫入门一、网络爬虫二、学习目的三、java爬虫和python爬虫的区别**四、爬虫过程一、网络爬虫网络爬虫(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。通俗的讲,爬虫就是能够自动访问互联网并将网站内容下载下来的的程序或脚本,类似于一个机器人,能把别人网站的信息弄到自己的电脑上,再通过做一些过滤,筛选,归纳,整理,排序等操作,得到你想要的数据信息。二、学习目的1.制定个人搜索引擎,利用爬虫采集互联网的信息2.在大数据时代,采集数据,从而进行数据原创 2021-08-01 11:36:46 · 398 阅读 · 0 评论