[Erlang 0104] 当Erlang遇到Solr

Joe Armstrong的访谈中有一段关于"打开黑盒子"的阐述,给我留下很深的印象:Joe Armstrong在做XWindows开发时没有使用对应的类库,而是在了解XWindows底层实现后选择了直接和套接字通信,"把这20条消息映射到Erlang术语上,变个小魔术,然后可以向窗口直接发送消息,它们就开始执行动作了". [ 访谈全文] 回到今天的任务:Erlang使用Solr服务?当问题落实到数据通信协议的时候,就豁然开朗了,转换为我们熟悉的技术方案组合.先看下Solr的简介:
 

  Solr 

 
   Solr (pronounced "solar") is an open source enterprise search platform from the Apache Lucene project. Its major features include full-text search, hit highlighting, faceted search, dynamic clustering, database integration, and rich document (e.g., Word, PDF) handling. Providing distributed search and index replication, Solr is highly scalable. Solr is the most popular enterprise search engine. Solr 4 adds NoSQL features.    Solr is written in Java and runs as a standalone full-text search server within a servlet container such as Apache Tomcat or Jetty. Solr uses the Lucene Java search library at its core for full-text indexing and search, and has REST-like HTTP/XML and JSON APIs that make it usable from most popular programming languages. Solr's powerful external configuration allows it to be tailored to many types of application without Java coding, and it has a plugin architecture to support more advanced customization.
 
 
  搭建全文搜索服务Solr的确是一个不错的选择,分分钟就可以搭建起来Solr的环境,配置好IK什么的,那Erlang应用如何使用Solr服务呢?从上面维基百科的介绍中,我们可以捕捉到一些信息:REST-full API,XML,JSON,HTTP.看到这里已经全是我们熟悉的技术方案了,我们深入进去看下:
 

esolr

 
     2008年ppolv (Pablo Polvorin)在trapexit.org提交了一个Solr的功能模块,[地址:  http://forum.trapexit.org/viewtopic.php?t=13059 ],完成了操作Solr的基本功能:

     |> Add/Update documents esolr:add/2
     |> Delete documents esolr:delete/2
     |> Search esolr:search/3
 
先看看怎么使用这些上面的接口:
 
复制代码
%% 测试代码

-module(t).

-compile(export_all).


start()->
   SearchUrl="http://192.168.0.160:8080/solr/hear_me/select",
   UpdateUrl="http://192.168.0.160:8080/solr/hear_me/update",
   MltUrl="http://192.168.0.160:8080/solr/hear_me/mlt",
   {ok,Pid}=esolr:start([{select_url, SearchUrl}, {update_url, UpdateUrl}, {morelikethis_url, MltUrl}]),
   Pid.

search(SolrPid)->
  esolr:search("10",[{fields,"*,*"}],SolrPid).


add(SolrPid) ->
   esolr:add([{doc,[{id,"ai234"}, {text,<<"Look me mom!, I'm searching now">>}]}],SolrPid),
   esolr:add([{doc,[{id,"a3456"}, {text,<<"Look me mom!, I'm searching now">>}]}],SolrPid),
   esolr:commit(SolrPid).
复制代码

测试结果如下:

复制代码
Eshell V5.9  (abort with ^G)
1> P=t:start().
<0.34.0>
2> t:add(P).
ok
3> esolr:search("searching",[{fields,"*,*"}],P).
{ok,[{"numFound",2},{"start",0}],
    [{doc,[{"id",<<"ai234">>},
           {"_version_",1440978100186775552}]},
     {doc,[{"id",<<"a3456">>},
           {"_version_",1440978100212989952}]}],
    []}
4> t:search(P).
{ok,[{"numFound",9},{"start",0}],
    [{doc,[{"c_type",1},
           {"c_tags",
            [<<"女人">>,
             <<230,148,190,229,188,131>>,
             <<"家庭">>,
             <<229,165,179,229,143,139>>,
             <<229,165,179,229,173,169,229,173,144>>,
             <<229,176,143,229,173,169,229,173,144>>,
             <<231,166,187,229,169,154>>,
             <<229,135,186,230,137,139>>,
             <<229,133,132,229,188,159>>]},
           {"c_pub_date",<<"2013-07-12T16:29:11.593Z">>},
           {"id",<<"97">>},
           {"_version_",1440342611812417536}]},
     {doc,[{"c_type",1},
           {"c_tags",
            [<<231,189,145,231,187,156>>,
             <<229,165,179,229,143,139>>,
             <<228,187,139,231,187,141>>,
             <<233,171,152,228,184,173>>,
             <<229,144,140,229,173,166>>,
             <<230,156,139,229,143,139>>,
             <<229,140,151,228,186,172>>,
 ..... ...
复制代码

 

代码实现 

  翻开代码,下面这个方法包含了大部分技术要点:
 
复制代码
make_post_request(Request,PendingInfo,
State=#esolr{update_url=URL,pending=P,auto_commit=AC,dirty=Dirty},
Timeout) ->
     {ok,RequestId} = httpc:request(post,{URL,[{"connection", "close"}],"text/xml",Request},[{timeout,Timeout}],[{sync,false}]),
     Pendings = gb_trees:insert(RequestId,PendingInfo,P),
     if
          (AC == always) and Dirty -> 
                      CommitRequest = encode_commit(),
                      {ok,C_RequestId} = httpc:request(post,{URL,[{"connection", "close"}],"text/xml",CommitRequest},
                                                    [{timeout,State#esolr.commit_timeout}],[{sync,false}]),
                      Pendings2 = gb_trees:insert(C_RequestId,{auto,auto_commit},Pendings),
                      error_logger:info_report([{auto_commit,send}]),
                        {noreply,State#esolr{pending=Pendings2,dirty=false}};
         
          true -> {noreply,State#esolr{pending=Pendings}}
     end.
复制代码
 
首先在init阶段开启了inets:start(),make_post_request发起HTTP请求靠的是httpc,每一次请求之后都会把RequestId和请求发起者({From,_}里面的From)对应关系存储到 gb_tree.在后面的handle_info代码段,可以看到对HTTPResponse的消息的接收.
 
复制代码
% @hidden
handle_info({http,{RequestId,HttpResponse}},State = #esolr{pending=P}) ->
     case gb_trees:lookup(RequestId,P) of
          {value,{Client,RequestOp}} -> handle_http_response(HttpResponse,RequestOp,Client),
                              {noreply,State#esolr{pending=gb_trees:delete(RequestId,P)}};
          none -> {noreply,State}
                    %% the requestid isn't here, probably the request was deleted after a timeout
     end;

parse_search_response(Response,Client) ->
     {value,{"response",{obj,SearchRespFields}},RestResponse} = lists:keytake("response",1, Response),
     {value,{"docs",Docs},RespFields} =  lists:keytake("docs",1,SearchRespFields),
     gen_server:reply(Client,{ok,RespFields,[{doc,DocFields} || {obj,DocFields}<-Docs],RestResponse}).
复制代码
在parse_search_response方法里面gen_server:reply调用最终完成了对请求的应答.
 
XML & Json
 
既然要处理XML,当然要用到xmerl模块了,encode_*系列模块基本上都是用它完成数据的encode,比如:
 
Eshell V5.10.2  (abort with ^G)
1> xmerl:export_simple([{commit,[]}],xmerl_xml).
["<?xml version=\"1.0\"?>",[["<","commit","/>"]]]
2>

 HTTPResponse解析还会用到xmerl_scan,xmerl_xpath

 
复制代码
handle_http_response({{_HttpV,200,_Reason},_Headers,Data},Op,Client) ->
     {Response,[]} = xmerl_scan:string(binary_to_list(Data)),
     [Header] = xmerl_xpath:string("/response/lst[@name='responseHeader']",Response),
     case parse_xml_response_header(Header) of
          {ok,QTime} ->  parse_xml_response(Op,Response,QTime,Client);
          {error,Error} ->  response_error(Op,Client,Error)
     end;
复制代码

 除了XML之外,还要解析JSON,这里使用的是RFC4627.

 

扩展

 
这个简单的功能模块,呃,是不是太简陋了?而且你会发现代码太老了?这段代码后续被修改应用在了Zotontic项目实现搜索功能,之前盘点 Erlang Web Server和Web Framework的时候提到过这个CMS系统 [地址: https://github.com/arjan/mod_search_solr] 这个项目里面把原有代码做了重构,并增加了很多实用的接口比如翻页 "MoreLikeThis"功能封装.可以在Github上获取代码试一下,Zotontic的代码略显庞大,只取必需的模块编译即可;
 
 
ok,今天就到这里.
 
 
最后小图一张 Miss Nine
 
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
应用背景为变电站电力巡检,基于YOLO v4算法模型对常见电力巡检目标进行检测,并充分利用Ascend310提供的DVPP等硬件支持能力来完成流媒体的传输、处理等任务,并对系统性能做出一定的优化。.zip深度学习是机器学习的一个子领域,它基于人工神经网络的研究,特别是利用多层次的神经网络来进行学习和模式识别。深度学习模型能够学习数据的高层次特征,这些特征对于图像和语音识别、自然语言处理、医学图像分析等应用至关重要。以下是深度学习的一些关键概念和组成部分: 1. **神经网络(Neural Networks)**:深度学习的基础是人工神经网络,它是由多个层组成的网络结构,包括输入层、隐藏层和输出层。每个层由多个神经元组成,神经元之间通过权重连接。 2. **前馈神经网络(Feedforward Neural Networks)**:这是最常见的神经网络类型,信息从输入层流向隐藏层,最终到达输出层。 3. **卷积神经网络(Convolutional Neural Networks, CNNs)**:这种网络特别适合处理具有网格结构的数据,如图像。它们使用卷积层来提取图像的特征。 4. **循环神经网络(Recurrent Neural Networks, RNNs)**:这种网络能够处理序列数据,如时间序列或自然语言,因为它们具有记忆功能,能够捕捉数据中的时间依赖性。 5. **长短期记忆网络(Long Short-Term Memory, LSTM)**:LSTM 是一种特殊的 RNN,它能够学习长期依赖关系,非常适合复杂的序列预测任务。 6. **生成对抗网络(Generative Adversarial Networks, GANs)**:由两个网络组成,一个生成器和一个判别器,它们相互竞争,生成器生成数据,判别器评估数据的真实性。 7. **深度学习框架**:如 TensorFlow、Keras、PyTorch 等,这些框架提供了构建、训练和部署深度学习模型的工具和库。 8. **激活函数(Activation Functions)**:如 ReLU、Sigmoid、Tanh 等,它们在神经网络中用于添加非线性,使得网络能够学习复杂的函数。 9. **损失函数(Loss Functions)**:用于评估模型的预测与真实值之间的差异,常见的损失函数包括均方误差(MSE)、交叉熵(Cross-Entropy)等。 10. **优化算法(Optimization Algorithms)**:如梯度下降(Gradient Descent)、随机梯度下降(SGD)、Adam 等,用于更新网络权重,以最小化损失函数。 11. **正则化(Regularization)**:技术如 Dropout、L1/L2 正则化等,用于防止模型过拟合。 12. **迁移学习(Transfer Learning)**:利用在一个任务上训练好的模型来提高另一个相关任务的性能。 深度学习在许多领域都取得了显著的成就,但它也面临着一些挑战,如对大量数据的依赖、模型的解释性差、计算资源消耗大等。研究人员正在不断探索新的方法来解决这些问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值