![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
甩卖不锈钢盆
这个作者很懒,什么都没留下…
展开
-
java主题爬虫+简易站内搜索引擎
因为毕业设计选了爬虫。而之前又没怎么接触过爬虫,只能从爬虫入门视频开始看,一点点学习摸索,所以前前后后写了将近两个月。今天可算是大致完工了,接下来就随便写写这个毕设的过程吧,记录一下。我太难了,也太菜了,唉。不得不说,java的爬虫是真的少。虽然b站能搜到大约四五个完整的java爬虫教学视频。但是这些视频也仅仅够入门,都是只讲了基础的网页下载、解析、多线程爬取等等内容。爬取的网站也大多是十分简...原创 2020-04-08 10:16:39 · 858 阅读 · 6 评论 -
java爬虫爬取gb2312编码的中文网页时出现个别中文字符乱码问题及解决方案
使用Java爬虫爬取中国青年网:http://news.youth.cn/sh的社会新闻模块时,出现部分乱码问题,如下图所示:我的爬虫使用的是自己编写的一个简单的网页编码探测器来获取网页编码的,按理说不应该出现乱码问题,下载网页的工具类代码如下:(下载工具类和字符探测工具类的两段代码不重要,不想看代码可以跳到第二部分)一、测试工具类是否出错/** *Httpclient下载工...原创 2020-03-11 23:14:49 · 1606 阅读 · 0 评论