基于微博数据检测的Solr实战开发

基于微博数据检测的Solr实战开发
课程观看地址:http://www.xuetuwuyou.com/course/145
课程出自学途无忧网:http://www.xuetuwuyou.com

一、课程用到的软件
1.centos6.7
2.apache-tomcat-7.0.47
3.solr-5.5
4.zookeeper 3.4.6
5.eclipse-jee-neon-R-win32-x86_64 

二、课程目标
在海量数据的情况下,传统的关系型数据库已经力不从心,快速检索已经成为了应用系统所必备的功能之一。本课程从实战角度出发,让学员能从实战中学习到:
1. 搜索引擎的原理及架构。 
2. 掌握在大数据环境下经典检索算法。 
3. 掌握如何使用solr实现系统快速检索目标。 
4. 掌握solr在开发中常见的技术大坑与调优技术。

三、适用人群
开发人员、架构师、对分布式搜索引擎有兴趣的朋友。


四、课程内容介绍:

第1课、Solr简介与部署
    知识点:Solr基本概念以及应用的介绍、Solr单机版的搭建

第2课、Solr建库实战
    知识点:介绍managed-schame和solrConfig两大配置文件,并建立Solr库开始实操

第3课、Solr中文分词器与全量数据导入
    知识点:对比中文分词器IK与MMSeg4j的特点、Solr配置MMSeg4j中文分词器、把Mysql中的数据导入到Solr索引库上

第4课、Solr增量数据导入及新管理UI实战
    知识点:把Mysql的数据增量导入到Solr索引库上、对Solr5最新的UI进行全面介绍

第5课、Solr数据查询详解
    知识点:基于UI管理界面,实战Solr q查询、fq查询以及分页、高亮、Facet等高级特性的使用

第6课、Solrj编程实战之索引增删改
    知识点:基于Eclipse开发环境、搭建Solrj工程项目,对Solr的索引库的进行增、删、改的操作

第7课、Solrj编程实战之索引查询与分页
    知识点:基于Solrj实现q查询、fq查询以及分页查询的操作

第8课、Solrj编程实战之高亮与Facet
    知识点:基于Solrj实现高亮查询、Facet查询的操作

第9课、Solrj编程实战之设计模式
    知识点:基于前阶段所写的代码,发现代码中的不足,并使用单例模式、模块方法、回调方法的设计模式进行仿Spring Data的开发

第10课、Solr缓存与预热机制剖析
    知识点:从算法、应用场景以及实例的多个维度,剖析Solr中的四大缓存,并且站在SolrIndexSearcher的生命周期上解剖预热机制及其注意事项

第11课、Solr高级特性之近实时、实时检索
    知识点:从概念、原理以及实例的多个维度,剖析Solr近实时、实时检索

第12课、Solr高级特性之原子更新
    知识点:Solr在应用层面上对Lucene进行了封装,在Solr4之后提出了原子更新的新概念,从此在应用层面操作上方便我们进行索引更新

第13课、Solr高级特性之深度分页及性能调优
    知识点:Solr4的又一大特性,在面临海量据的情况下,占用更低的资源进行数据检索正是深度分页的一大亮点、后半节结合讲师的实际开发经验,分享Solr性能调优的策略

第14课、SolrCloud部署运维之集群搭建
    知识点:基于Centos、zookeeper环境下,搭建SolrCloud系统 

第15课、SolrCloud部署运维之库管理
    知识点:SolrCloud的运维之道,从UI管理界面以及命令行的两个维度去剖析SolrCloud库的管理,包括库的新增、删除以及动态更新 

第16课、SolrCloud部署运维之副本与扩容
    知识点:SolrCloud的运维之道,从UI管理界面以及命令行的两个维度去剖析SolrCloud分片的管理,包括分片的备份与库的扩容

第17课、中文分词器配置与使用Solrj操作SolrCloud
    知识点:配置中文分词器以及使用Solrj操作SolrCloud来实现增、删、改、查 

第18课、项目介绍与环境搭建
    知识点:介绍项目的背景以及总体架构、突出Solr在实际项目中的角色。基于Maven搭建开发环境 

第19课、框架代码开发之Spring集成Solrj之CRUD(maven版)
    知识点:Spring是一个JavaEE企业级框架,它很多主流的主件都进行集成支持。本节学习Spring与Solrj的集成,进行增、删、改、查操作

第20课、框架代码开发之Spring集成Solrj之(maven版)
    知识点:Spring是一个JavaEE企业级框架,它对很多主流的组件都进行集成支持。本节学习Spring与Solrj的集成,进行实时检索、高亮、深度分页、Facet查询操作

第21课、基于dom4j的导库组件开发(maven版)
    知识点:基于dom4j解析XML文件,并将数据批量高效导入到SolrCloud分布式索引库上进行检索分析

第22课、高级检索组件开发一
    知识点:基于SolrCloud实现高级检索,包括多条件查询、高亮、分页操作

第23课、高级检索组件开发二    
    知识点:基于SolrCloud实现高级检索,包括多条件查询、高亮、分页操作

第24课、相似匹配组件开发一
    知识点:基于SolrCloud实现相似性检索操作

第25课、相似匹配组件开发二
    知识点:基于SolrCloud实现相似性检索操作

第26课、课程总结与Solr6的展望
    知识点:课程大总结,并对最新版的Solr6进行亮点分析以及未来的展望


solrcloud5.2.1+zookeeper一部精通
课程观看地址:http://www.xuetuwuyou.com/course/15

转载于:https://my.oschina.net/u/1458545/blog/739223

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据量达到TB或PB级的时候,传统关系型数据型已力不从心。在大数据热潮中,推出了NoSQL数据库,这种天生就为分布式存储而设计的技术,尤其以Apache HBase为代表,占领海量数据存储技术的大半壁江山。本教视从实战角度出来,向学员们手把手掌握HBase使用精髓,让学员达到如下目标: 1. 了解分布式存储的原理及架构。 2. 掌握如何使用HBase实现海量数据存储与检索。 3. 掌握HBase在开发中常见的技术大坑与调优技术。 课时1:HBase简介与部署 课时2:HBase架构与索引算法剖析 课时3:HBase建库建表与CRUD实战 课时4:基于HBase Client API的CRUD实战 课时5:批处理与扫描器实战 课时6:使用Ganglia监控HBase 课时7:过滤器实战之比较过滤器 课时8:过滤器实战之专用过滤器与FilterList 课时9:过滤器实战之自定义过滤器 课时10:Observer协处理器实战之Master级别原理剖析 课时11:Observer协处理器实战之Region级别原理剖析 课时12:Observer协处理器实战之表复制应用实战 课时13:Endpoint协处理器实战之原理剖析 课时14:Endpoint协处理器实战数据统计应用实战 课时15:使用API管理HBase之核心理论 课时16:使用API管理HBase之编程实战 课时17:使用API管理HBase之编程实战(续) 课时18:搭建分布式HBase集群之Hadoop部署 课时19:搭建分布式HBase集群之HBase部署 课时20:sqoop2部署 课时21:使用sqoop2将mysql数据导入到HBase 课时22:集群管理之节点管理与数据任务 课时23:Rowkey设计与集群常见故障处理 课时24:集群调优经验分享 课时25:项目介绍与Solr环境搭建 课时26:数据层设计与中文分词器配置 课时27:Spring集成HBase之核心操作 课时28:Spring集成HBase之核心操作(续) 课时29:基于dom4j进行数据文件解析 课时30:数据层设计与实现之二级索引开发 课时31:数据层设计与实现之二级索引开发(续) 课时32:Spring集成Solrj之入门操作 课时33:Spring集成Solrj之高级操作 课时34:高亮查询功能开发之一 课时35:高亮查询功能开发之二 课时36:课程总结
要使用Python增量导入Oracle数据Solr,您需要遵循以下步骤: 1. 安装Solr和Python的相关库(如pysolr)。 2. 编写Python脚本,连接Oracle数据库并执行增量查询,将查询结果转换为Solr文档格式,并使用pysolr库将文档添加到Solr中。 3. 您可以使用定时任务(如cron)来定期运行Python脚本,以便进行增量导入。 下面是一个示例Python脚本,用于从Oracle数据库中查询并导入数据Solr: ``` import cx_Oracle import pysolr # Oracle数据库连接配置 dsn_tns = cx_Oracle.makedsn('localhost', '1521', 'XE') conn = cx_Oracle.connect(user='username', password='password', dsn=dsn_tns) cursor = conn.cursor() # Solr连接配置 solr = pysolr.Solr('http://localhost:8983/solr/mycore', timeout=10) # 查询增量数据 query = "SELECT * FROM mytable WHERE updated_at > :last_update" last_update = '2021-01-01 00:00:00' # 上次更新时间 cursor.execute(query, last_update=last_update) # 将查询结果转换为Solr文档格式 docs = [] for row in cursor: doc = { 'id': str(row[0]), 'title': row[1], 'content': row[2], 'updated_at': row[3].strftime('%Y-%m-%dT%H:%M:%SZ') } docs.append(doc) # 添加文档到Solr solr.add(docs) # 更新上次更新时间 last_update = datetime.now().strftime('%Y-%m-%d %H:%M:%S') # 关闭Oracle连接和Solr连接 cursor.close() conn.close() solr.commit() solr.close() ``` 此脚本将从Oracle数据库中查询更新时间大于上次更新时间的数据,并将查询结果转换为Solr文档格式。然后,使用pysolr库将文档添加到Solr中,并更新上次更新时间。您可以根据需要调整查询和文档格式。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值