自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 收藏
  • 关注

原创 Solr管理页面 下

CoreSelector(Core选择器)界面预览这里可以看到目前存在的所有Core,并且可以选择其中一个,进行更详细的操作:添加修改索引数据查询索引数据...

2019-04-30 16:00:33 98

原创 Solr管理页面 上

DashBoard(仪表盘)Logging(日志)Core Admin(Core管理)在Solr中,每一个Core,代表一个索引库,里面包含索引数据及其配置信息。Solr中可以拥有多个Core,也就同时管理多个索引库!就像在MySQL中可以有多个database一样!默认core的目录JavaProperties和ThreadDump...

2019-04-30 15:59:28 385

原创 启动Solr服务的方式

方式一,Jetty服务器启动Solr(了解)步骤:1) 进入solr-4.10.2/example目录2) 打开命令行,执行java –jar start.jar命令,即可启动Solr服务3) 打开浏览器,通过http://localhost:8983/solr来访问Solr管理页面。(Jetty服务的默认端口是8983)方式二,Tomcat服务器启动步骤:1) 部...

2019-04-30 15:57:55 1059

原创 Solr概述

什么是SolrSolr的下载及安装1)下载:官网:http://lucene.apache.org历史版本下载网址:http://archive.apache.org/dist/lucene/solr/也可以直接使用发给大家的压缩包:2)安装右键解压到当前文件夹即可,注意:解压的目录中一定不要中文和空格。目录结构我们最需要关注的就是:exam...

2019-04-30 15:56:18 157

原创 Lucene的高级使用之得分算法

l Lucene会对搜索结果打分,用来表示文档数据与词条关联性的强弱,得分越高,表示查询的匹配度就越高,排名就越靠前!其算法公式是:

2019-04-28 14:35:29 277

原创 Lucene的高级使用之分页

物理分页:limit逻辑分页:代码// 分页 @Test public void testPageQuery() throws Exception { // 实际上Lucene本身不支持分页。因此我们需要自己进行逻辑分页。我们要准备分页参数: int pageSize = 2;// 每页条数 int pageNum = 3;...

2019-04-28 14:33:30 558

原创 Lucene的高级使用之排序

/ 排序 @Test public void testSortQuery() throws Exception { // 目录对象 Directory directory = FSDirectory.open(new File("indexDir")); // 创建读取工具 IndexReader reader = ...

2019-04-28 14:31:52 260

原创 Lucene的高级使用之高亮显示

1.1、高亮显示原理: 1)给所有关键字加上一个HTML标签 2)给这个特殊的标签设置CSS样式代码实现:// 高亮显示 @Test public void testHighlighter() throws Exception { // 目录对象 Directory directory = FSDirectory.open(...

2019-04-28 14:30:32 574

原创 查询索引数据的删除索引

@Test public void testDelete() throws IOException { // 创建目录对象 Directory directory = FSDirectory.open(new File("C:\\tmp\\indexDir")); // 创建索引写入器配置对象 IndexWriterCo...

2019-04-28 10:11:19 242

原创 查询索引数据的修改索引

/** * 更新索引 * 本质先删除再添加 * 先删除所有满足条件的文档,再创建文档 * 因此,更新索引通常要根据唯一字段 * @throws IOException */ @Test public void testUpdate() throws IOException{ // 创建...

2019-04-28 10:06:00 457

原创 查询索引数据的特殊查询

1.1.1、特殊查询抽取公用的搜索方法:public void search(Query query) throws Exception { // 创建目录对象 Directory directory = FSDirectory.open(new File("C:\\tmp\\indexDir")); // 索引的读取对象 IndexReader indexReader ...

2019-04-28 09:53:45 175

原创 查询索引数据的核心API

1.1.1、核心API1.1.1.1、QueryParser(查询解析器)1)QueryParser(单一字段的查询解析器)2)MultiFieldQueryParser(多字段的查询解析器)1.1.1.2、Query(查询对象,包含要查询的关键词信息)l 1)通过QueryParser解析关键字,得到查询对象l 2)自定义查询对象(特殊查询)我们可以通过Que...

2019-04-25 09:36:15 171

原创 查询索引数据的代码实现

@Test public void testSearcher() throws IOException, ParseException{ // 初始化索引库对象 Directory directory = FSDirectory.open(new File("C:\\tmp\\index")); //...

2019-04-25 09:34:10 423

原创 Lucene的基本使用之Analyzer分词器

提供分词算法,可以把文档中的数据按照算法分词这些分词器,并没有合适的中文分词器,因此一般我们会用第三方提供的分词器:一般我们用IK分词器。1.1.1.1、IK分词器官网:https://code.google.com/p/ik-analyzer/l 概述林良益IK分词器官方版本是不支持Lucene4.X的,有人基于IK的源码做了改造,支持了Lucene4.X...

2019-04-25 09:33:02 344

原创 Lucene的基本使用之API详解

1.1.1.1、Document(文档类)Document:文档对象,是一条原始的数据1.1.1.2、Field(字段类)一个Document中可以有很多个不同的字段,每一个字段都是一个Field类的对象。一个Document中的字段其类型是不确定的,因此Field类就提供了各种不同的子类,来对应这些不同类型的字段。这些子类有一些不同的特性:1) 创建索引Dou...

2019-04-22 14:18:44 444

原创 Lucene的基本使用之索引查看工具

2019-04-22 14:16:50 429

原创 Lucene的基本使用之创建索引的流程

1.1.1、创建索引的流程:1.1.2、代码实现@Test public void indexCreate() throws IOException { // 创建文档对象 Document document = new Document(); // 添加字段,参数Field是一个接口,要new实现类的对象(StringField, TextField) //...

2019-04-22 14:15:00 543

原创 Lucene的基本使用之准备工作

1.1、准备工作1.1.1、工具和环境(截图)Maven以及eclipse的配置参考《Eclipse相关配置.docx》1.1.2、创建lucene工程1、 右键àNewàProject…2、 打开New Project窗口,点击mavenàMaven ProjectàNext>3、 打开New Maven Poject窗口,选择“Create a simpl...

2019-04-19 15:37:21 121

原创 Lucene概述

1.1、什么是LuceneLOGO:l Lucene是一套用于全文检索和搜寻的开源程序库,由Apache软件基金会支持和提供l Lucene提供了一个简单却强大的应用程序接口(API),能够做全文索引和搜寻,在Java开发环境里Lucene是一个成熟的免费开放源代码工具l Lucene并不是现成的搜索引擎产品,但可以用来制作搜索引擎产品l 官网:http://lucene....

2019-04-19 15:35:49 127

原创 搜索技术 下

1.1、搜索引擎的种类搜索引擎按照功能通常分为垂直搜索和综合搜索。 1、垂直搜索是指专门针对某一类信息进行搜索。例如:会搜网 主要做商务搜索的,并且提供商务信息。除此之外还有爱看图标网、职友集等。 2、综合搜索是指对众多信息进行综合性的搜索。例如:百度、谷歌、搜狗、360搜索等。 3、站内搜索是指对网站内的信息进行的搜索。例如:京东、招聘网...

2019-04-19 15:34:53 1023

原创 搜索技术 上

1.1、什么是搜索简单的说,搜索就是搜寻、查找,在IT行业中就是指用户输入关键字,通过相应的算法,查询并返回用户所需要的信息。线性匹配:Select * from 表名 where id=select * from item where title like ’%小米%’结果:结果中包含: 所有title字段中有 小米 这个词的结果集是否准确? 是否高效?1.2...

2019-04-19 15:33:47 941

原创 黑客行为之解析商品数据

6.2.1知识概述package cn.itcast.spider.login; public class Product { private String id; private String name; private String price; private String createTime; private String des; ...

2019-04-18 14:33:31 128

原创 黑客行为之悄悄登录后台

6.1.1知识概述登录界面分析请求的URL:http://shop.itcast.cn/login/login.html请求的参数:第一个参数:reURL=http://shop.itcast.cn/item/itemList.html第二个参数:username = itcast第三个参数:password = itcast登录成功重定向① 客户端发起请...

2019-04-18 14:31:25 1257

原创 黑客行为之运行目标网站

5.3.1知识概述参见资料【tomcat4shop_p80.zip】① 解压压缩包 tomcat4shop_p80.zip② 进入 tomcat4shop_p80\webapps\ROOT\WEB-INF\classes 找到数据库文件ssm.sql③ 打开虚拟机,运行数据库软件④ 导入建表语句⑤ 修改数据库连接文件\tomcat4shop_p80\webapps\ROOT...

2019-04-18 14:28:33 177

原创 使用Jsoup选择器获取数据

4.3.1知识概述Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。官网地址<dependency> <!-- jsoup HTML parser library @ [url=https://jsoup.org/]ht...

2019-04-17 14:34:06 812

原创 使用HttpClient进行POST请求

3.4.1知识概述package cn.itcast.spider.httpClient; import org.apache.http.client.entity.UrlEncodedFormEntity;import org.apache.http.client.methods.CloseableHttpResponse;import org.apache.http.client...

2019-04-17 14:31:59 9628 2

原创 使用HttpClient进行Get请求使用HttpClient进行Get请求

3.3.1知识概述package cn.itcast.spider.httpClient; import java.nio.charset.Charset; import org.apache.http.client.methods.CloseableHttpResponse;import org.apache.http.client.methods.HttpGet;import...

2019-04-17 14:29:57 2618

原创 HttpClient是什么

3.2.1知识概述HttpClient 是 Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。HtppClient官网为什么有HttpClient?l 超文本传输协议(HTTP)可能是当今互联网上使用的最重要的协议l 虽然java.net包提供了通过...

2019-04-15 14:50:41 977

原创 使用JDK原生api进行网络请求并比较

3.1.1知识概述使用原生API发送Get请求package cn.itcast.spider; import java.io.BufferedReader;import java.io.InputStream;import java.io.InputStreamReader;import java.net.HttpURLConnection;import java.net....

2019-04-15 14:49:05 402

原创 DNS域名解析的知识了解

2.4.1知识概述DNS(Domain Name System,域名系统),因特网上作为域名和IP地址相互映射的一个分布式数据库,能够使用户更方便的访问互联网,而不用去记住能够被机器直接读取的IP数串。通过主机名,最终得到该主机名对应的IP地址的过程叫做域名解析(或主机名解析)。DNS协议运行在UDP协议之上,使用端口号53。更多信息请访问百度百科,DNS在实际的开发过程中...

2019-04-15 14:46:51 209

原创 网络爬虫的原理图

2.3.1知识概述① 指定一个种子url放入到队列中② 从队列中获取某个URL③ 使用HTTP协议发起网络请求④ 在发起网络请求的过程中,需要将域名转化成IP地址,也就是域名解析⑤ 得到服务器的响应,此时是二进制的输入流⑥ 将二进制的输入流转换成HTML文档,并解析内容(我们要抓取的内容,比如标题)。⑦ 将解除出来的内容保持到数据库⑧ 记录当前URL,并标记为已...

2019-04-15 14:45:43 1941

原创 网络爬虫是怎么运行的

2.2.1知识概述网络爬虫究竟是怎么运行的?单个页面是如何运行的?*1)指定一个url*2)使用技术发送get请求*3)获得服务端的响应*4)将二进制的数据,转化成HTML文档网络爬虫一般会爬取很多很多很多的页面for(){*1)指定一个url*2)使用技术发送get请求*3)获得服务端的响应*4)将二进制的数据,转化成HTML文档}2.2.2视频详情2.2...

2019-04-15 14:43:23 2435 1

原创 网络爬虫的本质与HTTP状态码

2.1.1知识概述使用HTTP GET协议获取数据,使用HTTP POST协议提交数据。客户端向服务器发送一个请求,请求头包含请求的方法、URL、协议版本、以及包含请求修饰符、客户信息和内容的类似于MIME的消息结构。服务器以一个状态行作为响应,响应的内容包括消息协议的版本,成功或者错误编码加上包含服务器信息、实体元信息以及可能的实体内容。通常HTTP消息包括客户机向服务器的请...

2019-04-15 14:39:29 263

原创 网络爬虫的作用和简单分类

1.4.1知识概述一般会用来做数据分析,先通过对数据的清洗,抽取,转换,将数据做成标准化的数据,然后进行数据分析和挖掘,得到数据的商业价值。数据分为内部数据和外部数据在互联网公司,不管内部数据还是外部数据,其实都是为了获取用户相关的数据。拿到用户的行为数据之后,会分析用户。比如说电商类网站就是为推荐商品,搜索类的网站为了精准营销(家具类) 广告联盟。公司内部数据...

2019-04-10 15:25:59 3198 2

原创 网络爬虫课程介绍及网络爬虫是什么

1.1.1知识概述介绍网络爬虫的课时安排,以及简单介绍当前课程在大数据课程中的重要性。1.1.2视频详情1.1.3总结与补充 无1.1.4课堂提问与练习 无1.1.5习题答案 无1.1网络爬虫是什么1.2.1知识概述以上数据来源于百度百科爬虫又叫网络爬虫,网络蜘蛛,一种运行在互联网上用来获取数据的...

2019-04-10 15:24:29 1651

原创 CSS的盒子模型

1.1.1什么是盒子模型CSS 框模型 (Box Model) 规定了元素框处理元素内容、内边距、边框 和 外边距 的方式。1.1.2内边距:padding.1.1.3边框:border1.1.4外边距:margin...

2019-04-04 15:24:13 141

原创 CSS的样式

1.1.1边框和尺寸:border、width、heightl border :设置边框的样式n 格式:宽度 样式 颜色n 例如:style=”border:1px solid #f00”,1像素实边红色。l 样式取值:solid 实线,none 无边,double 双线 等l width、height:用于设置标签的宽度、高度。[AppleScript]纯文本查看...

2019-04-04 15:22:02 126

原创 CSS的选择器

1.1CSS的选择器要想将CSS样式应用于特定的HTML元素,首先需要找到该目标元素。在CSS中,执行这一任务的样式规则部分被称为选择器,本小节将对CSS基础选择器进行详细地讲解,具体如下:1.1.1元素选择器标记选择器是指用HTML标记名称作为选择器,按标记名称分类,为页面中某一类标记指定统一的CSS样式。其基本语法格式如下:[AppleScript]纯文本查看复制代码...

2019-04-04 15:20:40 395

原创 CSS的概述

1.1CSS的概述1.1.1CSS是什么CSS 通常称为CSS样式或层叠样式表,主要用于设置HTML页面中的文本内容(字体、大小、对其方式等)、图片的外形(高宽、边框样式、边距等)以及版面的布局等外观显示样式。CSS可以是HTML页面更好看,CSS色系的搭配可以让用户更舒服,CSS+DIV布局更佳灵活,更容易绘制出用户需要的结构。1.1.2CSS名词解释CSS (Cascad...

2019-04-04 15:13:14 2439

原创 表单标签概述及详解

1.1表单标签概述1.1.1什么是表单标签我们去银行办理一些业务的时候,我们通常需要填写一些纸质单据,而如果我们在网页中需要填写一些单据呢?我们可以通过HTML的表单来实现。例如:1.2表单标签详解1.2.1输入项标签<input/>标签表单输入项标签之一,用户可以在该标签上 通过填写和选择 进行数据的输入。Ø type:设置该标签的种类ü text...

2019-04-04 15:11:16 4313

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除