超简单的JAVA爬虫爬取晋江小说的简介和评论

本文介绍了一个使用JAVA实现的简单爬虫,用于爬取晋江书城小说的书名、简介和评论。首先获取小说列表页面,然后解析HTML获取小说链接,接着进入详情页抓取简介和评论。评论数据需要通过HTTP POST请求获取,解析JSON得到。最终,爬取的信息被保存为TXT文件,便于进一步筛选和阅读。
摘要由CSDN通过智能技术生成

Java爬取晋江书城的某个分类下小说的简介和评论

写在前面,一开始是因为书荒又找不到自己喜欢的,就打算去晋江书城看看,结果排在前面的也不是我的菜,一本本挑又嫌太麻烦就打算把数据爬下来慢慢的看。分析了一下晋江的网页,发现可以爬下来的数据有书名、作者、类型、简介、标签、收藏、下载、点赞数、评论等,而我已经在晋江的网页上做过分类筛选,且萝卜白菜各有所爱,收藏和下载量高的也不能代表就是我喜欢的,所以我最后选择爬取简介、评论和第一章的内容,简介是一本书大体的概要,可以筛选不喜欢的设定,评论可以筛选一些文笔不好或太狗血的文章,第一章内容可以大致了解一个人的文风····当然后来我因为觉得数据太多的原因没有爬第一章内容。最后的成果是把每一页的小说的名字、简介和评论抓取出来,并生成一个txt文件,然后供自己手动筛选。

 

1.准备好需要爬取的网页URL

http://www.jjwxc.net/bookbase.php?fw0=0&fbsj=0&ycx0=0&ycx1=1&xx1=1&sd2=2&sd3=4&lx1=1&lx6=6&lx10=10&lx13=13&lx16=16&fg2=2&sortType=0&isfinish=2&collectiontypes=ors&searchkeywords=&page=1";

2.eclipse新建Dynamic项目JingjiangSpider;

3.WEB-INF/lib下引入需要的包。

 

其实不太确定是不是必须的····

4.src下新建一个包com.guozi.spider,并在包下新建java文件JinjiangSpider.java

5.先把本页的小说名和链接爬出来封装到map中去。

主要是解析,需要打开网页按F12去看element那部分源码,对着网页找到我们需要提取的那部分节点的id或者class甚至是标签,通过这些我们才能提取到我们所需要的信息。Id唯一所以是我们的第一选择。最后输出测试一下是否得到需要信息。

JinjiangSpider.java

//把小说名和链接整出来装到map里面去。
		public static Map getPageurl(String url){
			Map<String,String> nm=new HashMap<String,String>();
			try {
				//从网页获取得到HTML  jsoup是网页解析工具
				Document document = Jsoup.connect(url).get();   
				Element body=document.body();                    
				//cytable是分析网页源码得到的节点  通过class得到element
				Elements links1 = body.getEle
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值