网络采集器Demo：Jsoup+Java多线程实现[爬虫]（上）

最新推荐文章于 2024-03-29 10:59:38 发布

superhy_scut

最新推荐文章于 2024-03-29 10:59:38 发布

阅读量4.9k

点赞数 1

分类专栏：工程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qdhy199148/article/details/49539019

版权

本文介绍了如何使用Jsoup解析HTML并结合Java多线程技术实现网络爬虫，演示了从新浪首页抓取新闻文本内容的过程。通过获取种子页面的HTML，筛选有效链接，再到解析链接内容，最后展示了并行采集器提高效率的方法。

摘要由CSDN通过智能技术生成

ailab-mltk：http://blog.csdn.net/qdhy199148/article/details/49403585

里面最简单，但是很常用的一个部分，就是网络爬虫，从网页上获取文本信息

这里用到两个工具，一个就是Java多线程（基于Java5 以上的线程池模式，区别于过时的Runable），另外一个是一个小工具：Jsoup，用于解析html网页，获取其中的内容，关于Jsoup的使用，这是一个技术活，在下面的描述中会介绍一些基础操作，但主要还是需要师弟们自己去学习：http://www.open-open.com/jsoup/。

demo的功能是，爬取新浪主页的新闻文本内容。

下面我们一步一步来：

新浪首页即是我们的种子页面，首先我们需要获取新浪首页上的全部内容链接

1.用Jsoup获得种子页面的html代码

public class JsoupGetDocument {

	public static Document getDocumentByJsoupBasic(String url) {
		try {

			// 设置连接超时和读数超时
			// 设置忽略过期页面
			return Jsoup.connect(url).timeout(120000).i

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

superhy_scut CSDN认证博客专家 CSDN认证企业博客

码龄14年

11: 原创

18万+: 周排名

155万+: 总排名

9万+: 访问

: 等级

870: 积分

41: 粉丝

18: 获赞

25: 评论

50: 收藏

私信

关注

热门文章

分类专栏

工程 9篇
科研 1篇

最新评论

gensim实现python对word2vec的训练和计算
水...琥珀: 博主的代码对于小白白想要快速入手训练来看有点困难，如果是Python训练的话可以参看《python 训练work2vec词向量（python gensim）》https://blog.csdn.net/shuihupo/article/details/85156544
gensim实现python对word2vec的训练和计算
cairuyi811: 楼主，请教个问题，使用训练好的模型计算两个词向量之间的相似度可以用similarity和most_similar；但我发现他们计算出来的结果不一致是怎么回事呢？比如：通过 similarity计算张无忌和赵敏的相似度为： -1.0842e-19 而通过most_similar计算赵敏和张无忌的相似度则为 0.9469258785247803 这两个函数计算的不都是通过词向量计算余弦相似度吗？可否指点一下？
gensim实现python对word2vec的训练和计算
Sober-C 回复 superhy_scut: 好的，谢谢
gensim实现python对word2vec的训练和计算
superhy_scut 回复 Sober-C: 不存在了
gensim实现python对word2vec的训练和计算
Sober-C: 请问楼主，正文分词并数值化为词向量后，将词向量输入到文本分类模型，此时的词向量对应的正文的文字顺序，还存在吗

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。