爬虫
QuietHRH
这个作者很懒,什么都没留下…
展开
-
爬虫(三) redis&分布式爬虫
redisredis, 称为内存数据库, 以key-value的形式存放数据, 是一个非关系型数据库redis 提供类丰富的数据类型, 其有 string list map set sortSet 五种数据类型redis 的数据类型指的是value的数据类型, key都是String类型的1. 持久化RDB (默认打开): 是一种基于快照机制来实现的持久化的方案, 可以把快...原创 2018-09-25 09:35:17 · 398 阅读 · 0 评论 -
Lucene
搜索引擎1. 运行原理2. 倒排索引 倒排索引, 又称为反向索引: 以字或者词,甚至是一句话一段话作为一个关键字进行索引, 每一个关键字都会对应着一个记录项, 记录项中记录了这个关键字出现在那些文档中, 已经在此文档的什么位置上为什么说倒排索引可以提升查询的效率和精准度呢? 倒排索引, 是将数据提前按照格式分词放好,建立索引, 当用户进行搜索, 将用户的关键字进行分词, 然后根...原创 2018-09-26 10:43:50 · 855 阅读 · 0 评论 -
爬虫(二)
线程1. 实现方式继承Thread类实现Runnable接口通过callable和future 实现有返回值的线程public static void main(String[] args) throws Exception { //Callable的返回值就要使用Future对象,Callable负责计算结果,Future负责拿到结果 //1、实现Callab...原创 2018-09-21 20:39:23 · 293 阅读 · 0 评论 -
Java爬取京东商品数据
爬取京东商品数据我把项目部署到了linux中,进行爬取,爬到了3000条手机信息,只是爬了一些简单的文本信息.本文爬取的数据为京东手机信息准备工作导入爬取数据需要的依赖包编写httpClient工具类编写pojo类编写dao<dependencies> <dependency&g原创 2018-09-21 22:44:26 · 5947 阅读 · 5 评论 -
solr-
solr配置文件1. solrConfig.xml : solr核心配置文件2. schema.xml : solr约束文件<!--第一种标签为 field标签: 主要是用来指定字段名称的, Lucene中是有用户在程序中指定, solr中需要提前在配置文件中指定--> <field name="text" type="text_general"原创 2018-09-27 20:23:16 · 233 阅读 · 0 评论 -
solr-cloud介绍&基于Zookeeper部署搭建&使用
1. solrCloud基本概念1.1 什么是solrCloud SolrCloud(solr 云)是Solr提供的分布式搜索方案,当你需要大规模,容错,分布式索引和检索能力时使用 SolrCloud。当一个系统的索引数据量少的时候是不需要使用SolrCloud,当索引量很大,搜索请求并发很高,这时需要使用SolrCloud来满足这些需求。1.2 solrCloud的结构 SolrCl...原创 2018-09-28 10:51:14 · 853 阅读 · 0 评论