自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

筑梦者

努力ing

  • 博客(3)
  • 资源 (2)
  • 收藏
  • 关注

原创 数据爬取:爬取淘宝及国美在线搜索建议词

分为两种形式的抓取: 1.基于首字母的四轮次抓取 如: a ,aa ,aaa,aaaa 2.基于汉语i拼音的三轮次抓取:附拼音表 链接:http://pan.baidu.com/s/1eS5Kdmq 密码:n9pb 使用的框架为webmagic 淘宝爬取: public class TaobaoPinyinSuggestWordPageProcessor imp

2016-11-30 19:06:28 2610

原创 zookeeper选举问题

两种选举制度 1.持久-直到节点挂掉 2.轮留选举 这里我使用的是持久的方式 public class ZKConnectionUtil {     private  static CuratorFramework client ;     private static Object lock = new Object();     pri

2016-11-30 19:03:14 655

原创 链接分析学习

这章主要是对算法的一些描述,理解,实际使用没有. 两个模型: 随机游走模型:对直接跳转和远程跳转两种用户浏览行为进行抽象的模型. 子集传播模型:将互联网的某些符合规则的分为指定的集合,对集合赋予初始的权重,然后将剩余的网页,根据和集合内网页的关系,传递其权重. PageRank: 对所有页面设置一个初试权重值,根据出链进行权

2016-11-02 20:03:36 1123

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除