mongodb 相似度_Python 连接MongoDB并比较两个字符串相似度的简单示例

本文介绍一个示例:使用 pymongo 连接 MongoDB,查询MongoDB中的 字符串 记录,并比较字符串之间的相似度。

一,python连接MongoDB

大致步骤:创建MongoClient---> 获取 DataBase --->获取Collection,代码如下:

client = MongoClient(host="127.0.0.1", port=10001)

db= client['database_name']

db.authenticate(name="user_name", password="password")

coll = db.get_collection("collection_name")

二,Python MongoDB 查询

以uid为条件进行查询。由于 collection_name 中定义了多个字段,这里只想返回 chat 字段的内容,并且不返回 _id 字段内容。故查询条件如下:(find方法的第一个参数指定查询的条件,第二个参数指定 待 返回的 字段)

coll.find({"uid": 123456789}, {"_id": 0, "chat": 1})

MongoDB查询返回的每一条记录都是一个 dict:{"chat":"这是一条发言内容"},再将之转化成 chats列表(list) 存储每一条发言内容:

list_chat = list(coll.find({"uid": 123456789}, {"_id": 0, "chat": 1}))

chats= [d['chat'] for d in list_chat]

三,Python比较两个字符串的相似度

给定一个列表(list),列表中的每个元素都是一个字符串,计算列表中相邻两个元素的相似度。

#查找chats 列表 里面 相邻 字符串 之间的 相似度

defcompute_similar():

chats=uid_chats()for index in range(len(chats) - 1):

ratios= similar_ratio(chats[index], chats[index+1])print(ratios)

具体的字符串相似度计算,由SequenceMatcher实现,它忽略了字符串中存在空格的情况。

#lambda 表达式表示忽略 “ ”(空格),空格不参与相似度地计算

SequenceMatcher(lambda x:x==" ", strA, strB).ratio()

四,判断 "nick"字段是否包含 emoji字符

打开Anaconda,安装 emoji 处理包

pip install emoji --upgrade

代码如下:

from pymongo importMongoClientimportemoji

client= MongoClient(host="127.0.0.2", port=10001)

db= client['db_name']

db.authenticate(name="user_name", password="xxxx")

coll= db.get_collection("coll_name")defextract_emojis(str_chat):return ' '.join(c for c in str_chat if c inemoji.UNICODE_EMOJI)defuid_chats(uid):

list_chat= list(coll.find({"uid": uid}, {"_id": 0, "nick": 1}))

chats= [d['nick'] for d inlist_chat]print(chats)returnchatsif __name__ == "__main__":

chatList= uid_chats(123456789)for chat inchatList:

result=extract_emojis(chat)print(result)

五,完整代码

系统环境 pycharm2016.3  Anaconda3 Python3.6

from pymongo importMongoClientfrom difflib importSequenceMatcher

client= MongoClient(host="127.0.0.1", port=10001)

db= client['database_name']

db.authenticate(name="user_name", password="password")

coll= db.get_collection("collection_name")defuid_chats():

list_chat= list(coll.find({"uid": 123456789}, {"_id": 0, "chat": 1}))

chats= [d['chat'] for d inlist_chat]print(chats)returnchatsdefsimilar_ratio(strA, strB):return SequenceMatcher(lambda x:x==" ", strA, strB).ratio()#查找list里面相邻字符串之间的相似度

defcompute_similar():

chats=uid_chats()for index in range(len(chats) - 1):

ratios= similar_ratio(chats[index], chats[index+1])print(ratios)if __name__ == "__main__":

compute_similar()

原文:http://www.cnblogs.com/hapjin/p/7895027.html

以上就是Python 连接MongoDB并比较两个字符串相似度的简单示例的全部内容。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值