- 博客(11)
- 资源 (4)
- 收藏
- 关注
原创 MongoDB 常用命令记录
仅记录工作中常用的命令,随时补充,如有错误,欢迎指正。 1、创建普通索引:db.集合名.createIndex({"字段名":1})2、字段批量重命名:db.集合名.update({}, {$rename : {"原字段名" : "改后字段名"}}, false, true)3、批量删除某个字段:db.集合名.update({},{$unset:{'字段名':''}},false,...
2018-09-29 09:38:11 652
原创 Python 操作 mongodb 亿级数据量使用 Bloomfilter 高效率判断唯一性 例子
工作需要使用 python 处理 mongodb 数据库两亿数据量去重复,需要在大数据量下快速判断数据是否存在参考资料:https://segmentfault.com/q/1010000000613729网上了解到 Bloom Filter ,Bloom filter 是由 Howard Bloom 在 1970 年提出的二进制向量数据结构,它具有很好的空间和时间效率,被用来检测一个元素...
2018-09-27 11:39:34 2741
原创 windows下python3.7安装pybloom报错解决办法
最近在学习Python,当然就学到了布隆过滤器pybloomfilter,然而安装的过程很曲折,Bloom Filter实际上是由一组哈希函数和一个字节列表组成. 详细介绍可以参考百度百科安装过程错误及解决办法:windows下python3.7安装pybloom报错:error: Setup script exited with error: Microsoft Visual C++...
2018-09-27 10:37:41 5513 4
转载 mysql 错误 [Err] 1260 - Row * was cut by GROUP_CONCAT()
最近在用MySQL做一些数据处理,会用到group_concat函数,比如类似下面一条语句:select aid,group_concat(bid) from tbl group by aid limit 1;sql语句比较简单,按照aid分组,并且把相应的bid用逗号串起来。这样的句子大家可能都用过,也可能不会出问题,但是如果bid非常多的话,你就要小心了,比如下面的报错:[Er...
2018-09-26 09:41:57 16987 1
转载 python报错:pymongo.errors.CursorNotFound: Cursor not found
python报错:pymongo.errors.CursorNotFound: Cursor not found背景:从数据库中取得所有数据 db['test'].find({},{_id:0}),然后对结果进行for循环demos = db['demo'].find({},{"_id": 0})for cursor in demos: do_something(...
2018-09-21 16:51:47 6994
转载 MongoDB + Robo 3T数据去重
Robo 3T是MongoDB数据库的可视化界面软件。 爬虫时会因为某些原因,导致抓取的数据会有重复的。 除了在代码中处理去重,我们可以动动手指即可实现去重处理。 因此,我们可以指定字段来去重。 只需在Robo 3T可视化界面中输入一下代码即可:db.getCollection('数据表名称').aggregate([{$group:{_id:{字段名:'$字段名'}, count:...
2018-09-20 09:13:13 1806 1
原创 在notepad++中不排序不用插件去除重复行,很强大
今天拿到一个很大的文件,中间有很多重复行需要去除,在网上搜索的结果中大都是需要用到TextFX这个插件进行排序去重,实在是不符合我的需求,遂谷歌求得解决方案,不敢独享,其实就是用正则表达式去替换,表达式如下:^(.*?)$\s+?^(?=.*^\1$)操作方法如下,快捷键Ctrl+H,在弹出的界面输入表达式,并勾选匹配新行,如图所示:然后点击全部替换,看下重复行是不是已经没有了~...
2018-09-11 11:31:28 36416 6
原创 MongoDB查询集合中的文档
1、使用条件表达式(<, <=, >, >=,!=)//大于: field > valuedb.collection.find({field:{$gt:value}});//小于: field < valuedb.collection.find({field:{$lt:value}});//大于等于: field >= valuedb.col...
2018-09-05 17:39:37 3733
转载 windows下Python安装pymysql
# windows下Python安装pymysql# 从github 下载pymysql 安装包,下载地址:https://github.com/PyMySQL/PyMySQL# 解压下载文件,不用打开python交互界面,在cmd中cd到解压文件所在目录# 运行 python setup.py install# 打开python交互界面,# 运行 import pymysql...
2018-09-05 09:25:54 5408 1
转载 mongodb怎么实现两个表之间的数据转移
1、同一实例下:use db_source;var docs = db_source.collection_souce.find();use db_target;docs.forEach({db.collection_target.insert(d)});2、不同Mongodb实例之间,可以使用mongodump和mongorestore,先备份,后恢复:mongodump ...
2018-09-04 09:45:09 8773
转载 Mongodb插入数据save和insert方式的区别
如果我们在插入数据的时候不添加一个主键,系统会随机分配一个主键,则不存在下面所说的情况,若新增的数据中已存在主键,则再次插入相同的主键时insert() 会提示错误,而save() 则更改原来的内容为新内容。 如:当我们再次使用insert方式插入一个与其主键相同的对象时,会报出如下的错误我们很容易通过错误提示发现是因为主键重复。而当我们再次使用save方式插入 这个对...
2018-09-03 17:44:02 4138 5
windows快速删除大文件
2020-04-14
批量修改文件名.exe
2020-04-14
CSV 快速拆分工具
2019-01-15
DataX_Python3版
2018-11-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人