![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
upZzh
菜鸟
展开
-
爬取《鸡你太美》网易云音乐评论并生成词云
一说到爬虫,大家首先想到用python语言,的确,python有强大的类库,处理数据十分方便。但作为java程序猿,我所了解到,python中的许多功能,java也可以做到,比如,java中有类似于Scrapy的爬虫框架webMagic,他们实现的核心思路都是一样的;java也有词云生成框架KUMO。今天我们就用java爬取《鸡你太美》这首歌曲的网易云音乐评论,并生成词云。第一步,创建ma...原创 2019-11-12 16:22:00 · 1537 阅读 · 1 评论 -
云顶之奕S2上线了,用爬虫分析云顶之奕两个赛季都未曾登场的牌
云顶之奕S2上线了,回顾两个赛季,有哪些暂时失宠的英雄们还未曾登场呢?作为程序猿,你让咱一个个对照数出来,是不存在的,不如爬取一下数据,分析一波,既有趣,又锻炼了编程,岂不快哉!新建maven项目,导入jsoup与httpclient与jackson等依赖。<dependencies> <dependency> <groupId>juni...原创 2019-11-10 17:36:36 · 2128 阅读 · 1 评论 -
JAVA爬虫HTML解析工具——jsoup的使用
jsoup是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常好用省事的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。第一步:工欲善其事必先利其器---使用jsoup需要的四个Jar包:<dependency> <groupId>org.jsoup</groupId> ...原创 2019-08-25 22:48:41 · 475 阅读 · 0 评论 -
Java爬虫框架——WebMagic入门
一:webMagic介绍利用HttpClient与Jsoup可以帮助我们完成简单的或者规模较小的爬虫案例,但是他俩支撑不起企业级爬虫的开发。今天笔者整理了一款船新版本的爬虫框架——WebMagic,它的底层是由HttpClient与Jsoup结合实现的,它可以帮助我们更加方便快捷的开发爬虫。WebMagic的设计目标是开发模块化。它分为核心和扩展两部分。核心部分是精简模块化的爬虫实现,而扩...原创 2019-08-27 17:01:50 · 468 阅读 · 0 评论 -
Java爬虫之利用Jsoup+HttpClient爬取类叔叔不约匿名聊天网站的图片,未果——后爬取某网站美女图片案例
博主最近学了一点爬虫的知识,闲着无聊,秉承学以致用的理念,于是突然想到何不挑战一下,爬取一些叔叔不约网站的图片,来巩固一下所学知识(#滑稽)。说干就干,打开eclipse或idea,创建maven工程,引入所需jar包的依赖:<dependencies> <!-- httpClient--> <dependency> ...原创 2019-09-03 17:16:29 · 21674 阅读 · 2 评论