最近迷上了爬虫,项目也不忙··于是想了想,弄个爬虫统计下豆瓣用户的分布吧
还是用java··python还没有学好··关键是··我觉得java比较强大。
原理,手动输入一个用户主页,然后爬出这个用户关注的人,然后递归,就像搜索引擎的原理一样。
技术: mysql ,spring boot, thymeleaf ,echarts,jsoup
爬虫效率很低,因为五秒钟请求一次,不能请求太频繁,否则··哈哈···
待完善:因为懒··就用了jdbc,所以目前没有分页功能,前端技术也不好····将就着看吧。
用thymeleaf 真是坑不少, 记下遇到的问题吧
1、script 解析问题,引用 了thymeleaf ,就得在script
/*<![CDATA[*/
……
/*]]>*/
把js包起来,不然使<>& 等符号就会报错
2、变量嵌入js 这样使用:
<script th:inline="javascript">
var str = [[${list}]];
</script>
3、自定义标签
th:attr="data-content=${user.content}"
其他就没什么了,主要还是没仔细看api吧,边学边用,反而费时间。
关于后台的经验就是·:一定要把所有的exception 都考虑到,最好在方法里面直接加try catch,保证循环的继续才是最重要的,要不然··当你第二天满心期待的来看数据怎么样
了的时候··发现··程序在你走后一个小时就停了·那种心情··简直了
okay,唠叨完了,看下成果吧,这是一万条数据的时候画出来的
果然,文艺是有钱人的游戏哈,赶紧学习github,以后就能上传到github了···
下载地址:http://download.csdn.net/detail/noobbb/9791198
哈哈 差不多会用了···
github:https://github.com/mua-haha/doubanWorm
唉··被豆瓣封了ip,用代理也没用, 浏览器和代码都不行了。才8万多条··
去研究下如何解决