自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

River_sum的博客

River_sum CSDN认证博客专家 CSDN认证企业博客

码龄7年

5: 原创

106万+: 周排名

11万+: 总排名

1万+: 访问

: 等级

157: 积分

7: 粉丝

18: 获赞

4: 评论

59: 收藏

私信

关注

热门文章

分类专栏

最新评论

Java爬虫-快速入门 HttpClient+JSoup详解 (附各种Demo）
River_sum 回复 River_sum: 有几个单词拼错了，分别是第一行的hhtp-》http和倒数第三行的jaav-》java
Java爬虫-快速入门 HttpClient+JSoup详解 (附各种Demo）
River_sum: 使用 Jsoup.connect(url)是大部分情况下可行的。但是jsoup只能对html进行解析喔。 httpclient在hhtp请求上功能更多、更全，其与jsoup的关系类似与python中request与beautifulsoup。 httpclient专门用于各种http请求，包括转发重定向、设置cookies等等，而jsoup是一个完整的html解析器。在初学使用中，你可以使用Jsoup.connect或parse直接解析一个url对应的html网页，但是在后期你可能会发现有些数据是动态js渲染的，仅通过jsoup并不能解析，这时候你可以考虑使用httpclient设置一些参数来抓取（get、post等方式）传给js的数据包（通常是json格式）或者直接使用jaav实现的selenium来模拟浏览器抓取。目前我已经转而使用python来实现数据采集工作了，你如果感兴趣可以了解一下beautifulsoup、pyquery、request、selenium，包括实现高并发的redis等等框架。希望可以帮助到你，如有错误请指正喔。
Java爬虫-快速入门 HttpClient+JSoup详解 (附各种Demo）
zhanxiaoyier: 请问Document doc = Jsoup.connect(url).timeout(2000).get();既然可以直接请求与响应，那为什么还需要使用httpclient呢？

最新文章

Python爬虫

关注

文章平均质量分 93

关注数：文章数：1 文章阅读量：3427 文章收藏量：9

作者: River_sum

给我一年

展开

Python爬虫-快速入门 urllib+beautifulsoup4+多线程（附wiki data实体搜索等各种demo）

写在前面：最近工作又要用到爬虫，利用商品的名称在wiki data上搜索实体id，再根据实体id爬取对应的实体详细信息。虽然wiki官网上建议我们串行爬取数据，但速度实在是太慢了（预估要爬12天，显然不河里），因此记录了下常用的各种包的用法，并编写了一个多线程的脚本（一小时左右就爬完了），分享出来供大家参考~注：wiki data需要科学上网，不能的话用下面baidu的demo练手即可~1.urllib与beautifulsoup这俩好兄弟是黄金组合，举个例子，拿到一条你需要爬..

原创 2021-09-10 12:13:07 · 3427 阅读 · 0 评论