自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

王图思睿

什么都不是 什么都没有

  • 博客(11)
  • 资源 (4)
  • 收藏
  • 关注

原创 MongoDB 常用命令记录

仅记录工作中常用的命令,随时补充,如有错误,欢迎指正。 1、创建普通索引:db.集合名.createIndex({"字段名":1})2、字段批量重命名:db.集合名.update({}, {$rename : {"原字段名" : "改后字段名"}}, false, true)3、批量删除某个字段:db.集合名.update({},{$unset:{'字段名':''}},false,...

2018-09-29 09:38:11 652

原创 Python 操作 mongodb 亿级数据量使用 Bloomfilter 高效率判断唯一性 例子

工作需要使用 python 处理 mongodb 数据库两亿数据量去重复,需要在大数据量下快速判断数据是否存在参考资料:https://segmentfault.com/q/1010000000613729网上了解到 Bloom Filter ,Bloom filter 是由 Howard Bloom 在 1970 年提出的二进制向量数据结构,它具有很好的空间和时间效率,被用来检测一个元素...

2018-09-27 11:39:34 2741

原创 windows下python3.7安装pybloom报错解决办法

最近在学习Python,当然就学到了布隆过滤器pybloomfilter,然而安装的过程很曲折,Bloom Filter实际上是由一组哈希函数和一个字节列表组成. 详细介绍可以参考百度百科安装过程错误及解决办法:windows下python3.7安装pybloom报错:error: Setup script exited with error: Microsoft Visual C++...

2018-09-27 10:37:41 5513 4

转载 mysql 错误 [Err] 1260 - Row * was cut by GROUP_CONCAT()

最近在用MySQL做一些数据处理,会用到group_concat函数,比如类似下面一条语句:select aid,group_concat(bid) from tbl group by aid limit 1;sql语句比较简单,按照aid分组,并且把相应的bid用逗号串起来。这样的句子大家可能都用过,也可能不会出问题,但是如果bid非常多的话,你就要小心了,比如下面的报错:[Er...

2018-09-26 09:41:57 16987 1

转载 python报错:pymongo.errors.CursorNotFound: Cursor not found

python报错:pymongo.errors.CursorNotFound: Cursor not found背景:从数据库中取得所有数据 db['test'].find({},{_id:0}),然后对结果进行for循环demos = db['demo'].find({},{"_id": 0})for cursor in demos: do_something(...

2018-09-21 16:51:47 6994

转载 MongoDB + Robo 3T数据去重

Robo 3T是MongoDB数据库的可视化界面软件。 爬虫时会因为某些原因,导致抓取的数据会有重复的。 除了在代码中处理去重,我们可以动动手指即可实现去重处理。 因此,我们可以指定字段来去重。 只需在Robo 3T可视化界面中输入一下代码即可:db.getCollection('数据表名称').aggregate([{$group:{_id:{字段名:'$字段名'}, count:...

2018-09-20 09:13:13 1806 1

原创 在notepad++中不排序不用插件去除重复行,很强大

今天拿到一个很大的文件,中间有很多重复行需要去除,在网上搜索的结果中大都是需要用到TextFX这个插件进行排序去重,实在是不符合我的需求,遂谷歌求得解决方案,不敢独享,其实就是用正则表达式去替换,表达式如下:^(.*?)$\s+?^(?=.*^\1$)操作方法如下,快捷键Ctrl+H,在弹出的界面输入表达式,并勾选匹配新行,如图所示:然后点击全部替换,看下重复行是不是已经没有了~...

2018-09-11 11:31:28 36416 6

原创 MongoDB查询集合中的文档

1、使用条件表达式(<, <=, >, >=,!=)//大于: field > valuedb.collection.find({field:{$gt:value}});//小于: field < valuedb.collection.find({field:{$lt:value}});//大于等于: field >= valuedb.col...

2018-09-05 17:39:37 3733

转载 windows下Python安装pymysql

# windows下Python安装pymysql# 从github 下载pymysql 安装包,下载地址:https://github.com/PyMySQL/PyMySQL# 解压下载文件,不用打开python交互界面,在cmd中cd到解压文件所在目录# 运行 python setup.py install# 打开python交互界面,# 运行 import pymysql...

2018-09-05 09:25:54 5408 1

转载 mongodb怎么实现两个表之间的数据转移

1、同一实例下:use db_source;var docs = db_source.collection_souce.find();use db_target;docs.forEach({db.collection_target.insert(d)});2、不同Mongodb实例之间,可以使用mongodump和mongorestore,先备份,后恢复:mongodump ...

2018-09-04 09:45:09 8773

转载 Mongodb插入数据save和insert方式的区别

如果我们在插入数据的时候不添加一个主键,系统会随机分配一个主键,则不存在下面所说的情况,若新增的数据中已存在主键,则再次插入相同的主键时insert() 会提示错误,而save() 则更改原来的内容为新内容。 如:当我们再次使用insert方式插入一个与其主键相同的对象时,会报出如下的错误我们很容易通过错误提示发现是因为主键重复。而当我们再次使用save方式插入 这个对...

2018-09-03 17:44:02 4138 5

windows快速删除大文件

快速删除大文件,教程及原理文章:https://blog.csdn.net/weixin_41287692/article/details/87882210

2020-04-14

批量修改文件名.exe

批量修改文件名小工具功能:批量添加文件前缀、尾缀、修改文件类型。使用教程:https://blog.csdn.net/weixin_41287692/article/details/105512091

2020-04-14

CSV 快速拆分工具

CSV 拆分工具使用方法及介绍:https://blog.csdn.net/weixin_41287692/article/details/86489723

2019-01-15

DataX_Python3版

由于我本地 python 为 3.7.0 ,所以把 [datax_hoem]/bin 目录下的三个py文件修改成了符合 python3 语法要求的文件,执行也没报错 如需要,下载这三个文件替换即可。

2018-11-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除