- 博客(4)
- 收藏
- 关注
原创 网页查重-simhash算法的java实现
simhash算法在网页查重应用中的java实现在上一篇文章中,我们简单介绍了simhash算法,而在实际将它应用到网页查重中,我们首先需要分词算法将网页传来的数据流按照权重分开,但是由于对于中文和英文混杂的分词并不熟悉,我就十分偷懒的仅对英文进行分词,中文基本没管,下面是java实现:package test;import java.math.BigInteger;import java
2016-12-07 17:43:24 1602
原创 javamail使用时遇到的问题及解决
javamail使用时遇到的问题及解决在使用javamail的时候由于一开始的不熟悉和其他种种原因,中间出了很多问题,而其中一些花费了我很长的时间,为了节省大家的时间,下面就说一下我遇到那些问题和解决方法。1.网易邮箱服务器代理网易邮箱的服务器实在是有坑!在写完代码后,我遇到的一下错误提示:(554, 'DT:SPM 126 smtp5,jtKowAD3MJz2c1JXLc
2016-12-04 01:52:40 3737
原创 javamail发送邮件
使用javamail发送邮件在之前的学习中,有需要用到java来发送邮件,通过在网上查找资料,之前实现过一版可以给自己发送邮件但是不能给他人发的代码。今天又折腾了一天,总算解决了。1.首先不管你设置的发送邮箱是哪一种,第一步都需要开启POP3/SMTP服务,qq邮箱设置位置在设置->账户,再在如下图内容出开启,然后要花一毛钱发条短信生成授权码,记着就行。 网
2016-12-04 01:09:27 791
原创 如何判断一个网页是否更新
1. 根据http协议头在爬虫网页时,我们会向服务器发送head请求,而在返回的head头中,我们可以得到Last-Modifed, 即网页最后的修改时间。但是这个判断主要在于静态页面,在动态页面中Last-Modifed只是服务器最后发送Res2.基于局部敏感哈希的协同过滤算法之simHash算法
2016-12-03 20:19:28 5781
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人