使用python操作solr

python:2.7

solr:5.1


使用java的同学可以使用solrj操作solr,但是python就没有太好的操作solr的模块了。虽然也能找到几个,例如solrpy,但是由于年久失修,基本不能使用。

如果是对solr进行查询操作,其实非常简单,只需要完成一次get请求就可以了,最初接触python时,就是在浏览器里进行查询操作。

既然没有太好用的模块,就自己摸索着写一个吧,只需能完成工作中的特定工作内容就可以了。

对solr索引的添加,删除,可以发送post请求。post的内容呢,是xml格式的。例如<add><doc><field name="id">4</field></doc></add>  将这段内容post到

solr服务器,服务器那边就会进行新增处理了,但是这个时候你还无法搜索到,因为还缺少一个<commit/>,把这个<commit/>也post过去后,服务器才会让之前的更新生效,delete也一样的简单,看源码就了解了。

你的core的地址如果是这样的:http://localhost:8080:/solr/user  那么我们最终访问的网址是http://localhost:8080:/solr/user/update/ 

我这里调用addDoc时,是每三万条提交一次,如果每个doc都提交,那么每次都需要进行http连接,很浪费性能的,但是呢,这里也有一个隐患,那就是tomcat服务器一次最大能够处理的post请求如果小于我们实际提交的请求,就会出错。这里说的能处理的最大请求不是指doc的数量,而是post到服务器的数据的大小。这和浏览器对url的长度有限制一样,其实服务器对post请求的实际传输数据的大小也是有限制的。具体的限制可以进行配置,不过我没有在自己的tomcat配置里找到,希望它永远不会超过那个默认配置。。。。。

#coding=utf-8
'''
Created on 2015-10-9
Solr5.1亲测可行
@author: kwsy2015
'''
import urllib2
from xml.sax.saxutils import escape, quoteattr
class MySolrPy():
    def __init__(self,solrurl):
        self.solrurl = solrurl+'/update/'
        print self.solrurl
        self.docs = []
        self.size = 0
    #添加新的文档    
    def add(self,doc):
        self.docs.append(doc)
        self.size += 1
        if self.size>=30000:
            print self.size
            self.commit()     
            self.docs = []
            self.size = 0
    #提交数据        
    def _commit(self,data):
        requestAdd = urllib2.Request(
                          url=self.solrurl,
                          headers={'Content-type':'text/xml; charset=utf-8'},
                          )
        requestCommit = urllib2.Request(
                          url=self.solrurl,
                          headers={'Content-type':'text/xml'},
                          )
         
        
        opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())
        responseAdd = opener.open(requestAdd,data)
        
        responseCommit = opener.open(requestCommit,'<commit/>')
        
    #根据指定的id删除索引  
    def delDoc(self,id):
        lst = [u'<delete><id>']
        lst.append('%s' % (escape(unicode(id))))
        lst.append(u'</id></delete>')
        data = ''.join(lst)
        self._commit(data)
    #删除所有数据   
    def delAll(self):
        delCommond = '<delete><query>*:*</query></delete>'
        self._commit(delCommond)
    #用于新增索引时提交数据   
    def commit(self):
        lst = [u'<add>']
        
        for doc in self.docs:
            newdoc = self.packagingDoc(lst, doc)
        lst.append(u'</add>')
        data = ''.join(lst).encode('utf-8')
        self._commit(data)
    #包装数据
    def packagingDoc(self,lst, doc):
        
        lst.append(u'<doc>')
        for k,v in doc.items():    
            lst.append('<field name=%s>%s</field>' % (
                    (quoteattr(k),
                    escape(unicode(v)))))
        lst.append('</doc>')

使用的例子

#coding=utf-8
'''
Created on 2015-10-9

@author: kwsy2015
'''
import pymongo
from bson import ObjectId
from pymongo import MongoClient
from WebUser.MySolrPy import MySolrPy
#连接数据库
client = MongoClient('localhost', 27017)
#获得一个database
db = client.webuser
#获得一个collection
coll = db.userinfo
count = 0
docs = coll.find()
msp =  MySolrPy('http://localhost:8080/solr/emailSolr')
msp.delDoc(3)
for doc in docs:
    count += 1
    bean = {
            'id':count,
            'email_ik':doc['emailLink'],
            'email_s':doc['email'],
            'namen_s':doc['name'],
            'passwordn_s':doc['password'],
            'webnamen_s':doc['webname']          
            }
    msp.add(bean)
    
    if count>100000:
        break
msp.commit()
print 'ok'


  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

酷python

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值