- 博客(3)
- 资源 (2)
- 收藏
- 关注
原创 数据爬取:爬取淘宝及国美在线搜索建议词
分为两种形式的抓取: 1.基于首字母的四轮次抓取 如: a ,aa ,aaa,aaaa 2.基于汉语i拼音的三轮次抓取:附拼音表 链接:http://pan.baidu.com/s/1eS5Kdmq 密码:n9pb 使用的框架为webmagic 淘宝爬取: public class TaobaoPinyinSuggestWordPageProcessor imp
2016-11-30 19:06:28 2610
原创 zookeeper选举问题
两种选举制度 1.持久-直到节点挂掉 2.轮留选举 这里我使用的是持久的方式 public class ZKConnectionUtil { private static CuratorFramework client ; private static Object lock = new Object(); pri
2016-11-30 19:03:14 655
原创 链接分析学习
这章主要是对算法的一些描述,理解,实际使用没有. 两个模型: 随机游走模型:对直接跳转和远程跳转两种用户浏览行为进行抽象的模型. 子集传播模型:将互联网的某些符合规则的分为指定的集合,对集合赋予初始的权重,然后将剩余的网页,根据和集合内网页的关系,传递其权重. PageRank: 对所有页面设置一个初试权重值,根据出链进行权
2016-11-02 20:03:36 1123
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人