豆瓣爬虫与统计

最新推荐文章于 2024-06-21 10:52:54 发布

说书人-

最新推荐文章于 2024-06-21 10:52:54 发布

阅读量1.1k

点赞数

分类专栏：爬虫文章标签：爬虫 java 豆瓣

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/NOOBBB/article/details/65443229

版权

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

最近迷上了爬虫，项目也不忙··于是想了想，弄个爬虫统计下豆瓣用户的分布吧

还是用java··python还没有学好··关键是··我觉得java比较强大。

原理，手动输入一个用户主页，然后爬出这个用户关注的人，然后递归，就像搜索引擎的原理一样。

技术： mysql ，spring boot， thymeleaf ，echarts，jsoup

爬虫效率很低，因为五秒钟请求一次，不能请求太频繁，否则··哈哈···

待完善：因为懒··就用了jdbc，所以目前没有分页功能，前端技术也不好····将就着看吧。

用thymeleaf 真是坑不少，记下遇到的问题吧

1、script 解析问题，引用了thymeleaf ，就得在script

/*<![CDATA[*/
……
/*]]>*/

把js包起来，不然使<>& 等符号就会报错

2、变量嵌入js 这样使用：

<script th:inline="javascript">
	var str = [[${list}]];
</script>

3、自定义标签

th:attr="data-content=${user.content}"

其他就没什么了，主要还是没仔细看api吧，边学边用，反而费时间。

关于后台的经验就是·：一定要把所有的exception 都考虑到，最好在方法里面直接加try catch，保证循环的继续才是最重要的，要不然··当你第二天满心期待的来看数据怎么样

了的时候··发现··程序在你走后一个小时就停了·那种心情··简直了

okay，唠叨完了，看下成果吧，这是一万条数据的时候画出来的

果然，文艺是有钱人的游戏哈，赶紧学习github，以后就能上传到github了···

下载地址：http://download.csdn.net/detail/noobbb/9791198

哈哈差不多会用了···

github：https://github.com/mua-haha/doubanWorm

唉··被豆瓣封了ip，用代理也没用，浏览器和代码都不行了。才8万多条··

去研究下如何解决

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。