- 博客(2)
- 资源 (2)
- 收藏
- 关注
转载 【Python-36】Python 标准库 urllib2 的使用细节
文章转载自:http://zhuoqiang.me/python-urllib2-usage.htmlPython 标准库中有很多实用的工具类,但是在具体使用时,标准库文档上对使用细节描述的并不清楚,比如 urllib2 这个 HTTP 客户端库。这里总结了一些 urllib2 的使用细节。Proxy 的设置 Timeout 设置 在 HTTP Request 中加入特定的 He...
2016-03-21 22:55:13 1327
转载 simhash算法原理及实现
simhash是google用来处理海量文本去重的算法。 google出品,你懂的。 simhash最牛逼的一点就是将一个文档,最后转换成一个64位的字节,暂且称之为特征字,然后判断重复只需要判断他们的特征字的距离是不是原理simhash值的生成图解如下大概花三分钟看懂这个图就差不多怎么实现这个simhash算法了。特别简单。谷歌出品嘛,简单实用。算法过程大概如下:将Doc进行关键词抽取(其中包括
2016-03-08 22:02:48 8229 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人