豆瓣爬虫与统计

最近迷上了爬虫,项目也不忙··于是想了想,弄个爬虫统计下豆瓣用户的分布吧

还是用java··python还没有学好··关键是··我觉得java比较强大。 

原理,手动输入一个用户主页,然后爬出这个用户关注的人,然后递归,就像搜索引擎的原理一样。

技术: mysql ,spring boot, thymeleaf ,echarts,jsoup

爬虫效率很低,因为五秒钟请求一次,不能请求太频繁,否则··哈哈···

待完善:因为懒··就用了jdbc,所以目前没有分页功能,前端技术也不好····将就着看吧。

用thymeleaf  真是坑不少, 记下遇到的问题吧

1、script 解析问题,引用 了thymeleaf  ,就得在script

/*<![CDATA[*/
……
/*]]>*/
 把js包起来,不然使<>& 等符号就会报错

2、变量嵌入js 这样使用:

<script th:inline="javascript">
	var str = [[${list}]];
</script>

3、自定义标签

th:attr="data-content=${user.content}"

其他就没什么了,主要还是没仔细看api吧,边学边用,反而费时间。

关于后台的经验就是·:一定要把所有的exception 都考虑到,最好在方法里面直接加try catch,保证循环的继续才是最重要的,要不然··当你第二天满心期待的来看数据怎么样

了的时候··发现··程序在你走后一个小时就停了·那种心情··简直了

okay,唠叨完了,看下成果吧,这是一万条数据的时候画出来的



果然,文艺是有钱人的游戏哈,赶紧学习github,以后就能上传到github了···

下载地址:http://download.csdn.net/detail/noobbb/9791198

哈哈 差不多会用了···

github:https://github.com/mua-haha/doubanWorm


唉··被豆瓣封了ip,用代理也没用, 浏览器和代码都不行了。才8万多条··

去研究下如何解决

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值