- 博客(2)
- 收藏
- 关注
原创 Nutch核心流程
一、 org.apache.nutch.crawl.Injector: 1,注入url.txt 2,url标准化 3,拦截url,进行正则校验(regex-urlfilter.txt) 4,对符URL标准的url进行map对构造 <url, CrawlDatum>,在构造过程中给CrawlDatum初始化得分,分数可影响url host的搜索排序,和采集优先级
2016-08-31 11:17:53 316
转载 ubuntu14.04 切换 python版本
默认情况下ubuntu14中存在python2.7的版本和3.4的版本。默认版本是2.7使用命令alias python=python3如下图所示 python编辑器安装apt-get install ipython.然后输入ipython运行,ipython默认支持的是python2.7.如果要运行python3.*版本的ipython,则需要安装ipython3apt-get instal
2016-08-26 23:15:58 679
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人