Set类型的使用
- 存储大量的数据,在查询方面提供更高的效率
- 能够保存大量的数据,高效的内部存储机制,便于查询
- 自动去重
- 与hash存储结构完全相同,仅存储键,不存储值(nil),并且值是不允许重复的
注意:set 虽然与hash的存储结构相同,但是无法启用hash中存储值的空间
无序集合
- sadd
给name对应的集合中添加元素
sadd(self, name, *values)
案例:
red.sadd("name_set","aa", 'aa', 'bb') # 无序,自动去重
print(red.smembers('name_set')) # {b'aa', b'bb'}
red.sadd("name_set","aa","bb", 'cc')
print(red.smembers('name_set')) # {b'cc', b'aa', b'bb'}
- smembers
获取指定集合中所有值
smembers(self, name)
- scard
获取name对应的集合中的元素个数
smembers(self, name)
案例:
print(red.scard("name_set")) # 3
- sdiff
在第一个name对应的集合中且不在其他name对应的集合的元素集合
sdiff(self, keys, *args)
案例:
red.sadd("name","aa","bb")
red.sadd("name1","bb","cc")
red.sadd("name2","bb","cc","dd")
print(red.sdiff("name","name1","name2")) # 输出:{aa}
- smove
将某个元素从一个集合中移动到另外一个集合
smove(self, src, dst, value)
案例:
red.sadd("name_set","aa", 'bb', 'cc')
red.sadd('set1', 'dd')
red.smove('name_set', 'set1', 'bb')
print(red.smembers('set1')) # {b'dd', b'bb'}
print(red.smembers('name_set')) # {b'cc', b'aa'}
- spop
随机从集合中移除一个元素,并将其返回
spop(self, name)
案例:
red.sadd("set2","aa", 'bb', 'cc')
print(red.spop('set2')) # b'bb'
- srem
在name对应的集合中删除某些值
srem(name, values)
案例:
red.sadd("set3","aa", 'bb', 'cc')
print(red.srem('set3', 'cc')) # 1 返回删除的元素的个数
print(red.smembers('set3')) # {b'aa', b'bb'}
- srandmember
随机获取集合中指定数量的数据
srandmember key [count]
案例:
127.0.0.1:6379> SMEMBERS news
1) "n4"
2) "n3"
3) "n2"
4) "n1"
5) "n5"
127.0.0.1:6379> SRANDMEMBER news 1
1) "n4"
127.0.0.1:6379> SRANDMEMBER news 3
1) "n4"
2) "n3"
3) "n1"
- sinter / sunion / sdiff
求两个集合的交、并、差集
sinter key1 [key2]
sunion key1 [key2]
sdiff key1 [key2]
案例:
127.0.0.1:6379> sadd t1 n1 n2 n3 n4
(integer) 4
127.0.0.1:6379> sadd t2 n3 n5 n6
(integer) 3
127.0.0.1:6379> SINTER t1 t2
1) "n3"
127.0.0.1:6379> SUNION t1 t2
1) "n5"
2) "n4"
3) "n6"
4) "n3"
5) "n1"
6) "n2"
127.0.0.1:6379> SDIFF t1 t2
1) "n4"
2) "n1"
3) "n2"
- sinterstore / sunionstore / sdiffstore
求两个集合的交、并、差集并存储到指定集合中
sinterstore destination key1 [key2]
sunionstore destination key1 [key2]
sdiffstore destination key1 [key2]
案例:
127.0.0.1:6379> SINTERSTORE t3 t1 t2
(integer) 1
127.0.0.1:6379> SMEMBERS t3
1) "n3"
set类型涉及的场景及解决方案
- 应用于随机推荐类信息检索,例如热点歌单推荐,热点新闻推荐,热卖旅游线路,应用APP推荐,大V推荐等
场景:
每位用户首次使用今日头条时会设置3项爱好的内容,但是后期为了增加用户的活跃度、兴趣点,必须让用户
对其他信息类别逐渐产生兴趣,增加客户留存度,如何实现?
解决方案:
系统分析出各个分类的最新或最热点信息条目并组织成set集合
随机挑选其中部分信息,利用srandmember指令
配合用户关注信息分类中的热点信息组织成展示的全信息集合
- 应用于同类信息的关联搜索,二度关联搜索,深度关联搜索
场景:
脉脉为了促进用户间的交流,保障业务成单率的提升,需要让每位用户拥有大量的好友,事实上职场新人不具有更多的职场好友,如何快速为用户积累更多的好友?
新浪微博为了增加用户热度,提高用户留存性,需要微博用户在关注更多的人,以此获得更多的信息或热门话题,如何提高用户关注他人的总量?
QQ新用户入网年龄越来越低,这些用户的朋友圈交际圈非常小,往往集中在一所学校甚至一个班级中,如何帮助用户快速积累好友用户带来更多的活跃度?
微信公众号是微信信息流通的渠道之一,增加用户关注的公众号成为提高用户活跃度的一种方式,如何帮助用户积累更多关注的公众号?
美团外卖为了提升成单量,必须帮助用户挖掘美食需求,如何推荐给用户最适合自己的美食?
解决方案:
利用set的交集并集差集
显示共同关注(一度)
显示共同好友(一度)
由用户A出发,获取到好友用户B的好友信息列表(一度)
由用户A出发,获取到好友用户B的购物清单列表(二度)
由用户A出发,获取到好友用户B的游戏充值列表(二度)
- 应用于基于黑名单与白名单设定的服务控制
场景:
黑名单
资讯类信息类网站追求高访问量,但是由于其信息的价值,往往容易被不法分子利用,通过爬虫技术,
快速获取信息,个别特种行业网站信息通过爬虫获取分析后,可以转换成商业机密进行出售。例如第三方火
车票、机票、酒店刷票代购软件,电商刷评论、刷好评。
同时爬虫带来的伪流量也会给经营者带来错觉,产生错误的决策,有效避免网站被爬虫反复爬取成为每
个网站都要考虑的基本问题。在基于技术层面区分出爬虫用户后,需要将此类用户进行有效的屏蔽,这就是
黑名单的典型应用。
ps:不是说爬虫一定做摧毁性的工作,有些小型网站需要爬虫为其带来一些流量。
白名单
对于安全性更高的应用访问,仅仅靠黑名单是不能解决安全问题的,此时需要设定可访问的用户群体,
依赖白名单做更为苛刻的访问验证。
解决方案:
基于经营战略设定问题用户发现、鉴别规则
周期性更新满足规则的用户黑名单,加入set集合
用户行为信息达到后与黑名单进行比对,确认行为去向
黑名单过滤IP地址:应用于开放游客访问权限的信息源
黑名单过滤设备信息:应用于限定访问设备的信息源
黑名单过滤用户:应用于基于访问权限的信息源