使用SimHash算法实现千万级文本数据去重插入(python版代码)

前言,最近在搞大量数据插入MySQL的时候悲催的发现速度越来越慢,因为我的数据来多个源,使用流式更新,而且产品要求在这个表里面不能有数据重复,划重点!衡量数据是否重复的字段是文本内容,字段类型是text,…那么问题来了,如何在千万级数据量实现去重插入呢?而且要快! 自杀式做法 1.管它重复不重复...

2019-06-18 16:28:13

阅读数 256

评论数 0

sentencePiece入门小结

环境搭建 1.安装C++源码版 step1 安装环境依赖 ubuntu系统: sudo apt-get install cmake build-essential pkg-config libgoogle-perftools-dev centos系统: sudo yum install cma...

2019-06-10 16:53:32

阅读数 439

评论数 0

python中使用正则表达式去除中文文本多余空格,英文之间的保留

需求 在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入输出如下: input:我今天 赚了 10 个亿,老百姓very happy。 output:我今天赚了10个亿,老百姓very happy。 代码 def clea...

2019-03-04 20:34:43

阅读数 788

评论数 0

windows conda虚拟环境下配置cx_Oracle踩坑小结

前言:如果说本来安装cx_Oracle就是一个历经千辛万苦的过程,那么我这次安装的过程简直是巨坑无比了,现总结如下。 限制环境 系统:windows 64 python:在anaconda3下的创建的虚拟环境,2.7版本,64位 其他:已装了PLSQL,oracle clinet是32位的… ...

2019-01-16 20:21:35

阅读数 201

评论数 0

使用jmeter进行压力测试小结

前言:之前在多台机器上布置了docker,然后用nginx做反向代理,现在用jmeter对搭载的nginx服务器进行压力测试,看看性能如何。 jmeter简介 JMeter作为一款广为流传的开源压测产品,最初被设计用于Web应用测试,如今JMeter可以用于测试静态和动态资源,例如静态...

2019-01-11 21:28:32

阅读数 294

评论数 1

PyText入门(环境搭建和demo实现)

简介 12月15日,facebook宣布开源PyText NLP框架。 PyText是一种基于深度学习的NLP建模框架,基于PyTorch 1.0构建。它可以连接 ONNX 和 Caffe2,借助 PyText,AI 研究人员和工程师可以把 PyTorch 模型转化为 ONNX,然后将其导出为 C...

2018-12-21 15:53:34

阅读数 1414

评论数 2

nginx从入门到放弃(三、nginx性能优化)

1.main全局设置 worker_processes指定启动多少进程来处理请求,一般情况下设置成CPU的核数,这样每一个worker进程都绑定特定的CPU核心,进程间切换的代价是最小的,如下: worker_processes auto; worker_cpu_affinity在高并...

2018-11-13 20:30:36

阅读数 137

评论数 0

python练手小程序之二

判断是否为完全数 题目:一个数如果恰好等于它的因子之和,这个数就称为“完数”。例如6=1+2+3.编程    输入一个数,判断是否是“完数”。 程序分析:对输入的数j进行因子分解(这里的因子不是质因数): (1)初始化一个s变量,将j赋值给s,使用循环和取余来判断1-j中的i是否能被j整除,如是则...

2018-10-29 20:37:48

阅读数 146

评论数 0

python练手小程序之一

最近正好在辅导别个python,因此搜罗了一些比较适合新手编写的程序,会把程序和程序分析都放上来。 字符分类统计 题目:输入一行字符,分别统计出其中英文字母、空格、数字和其它字符的个数。 程序分析:利用while语句,以及if elif else多个条件判断。 使用到的基本知识有循环,字符处理...

2018-10-28 18:24:09

阅读数 274

评论数 0

nginx从入门到放弃(二、nginx反向代理多服务器上多docker端口)

本次应用的目的是拿nginx做服务器的负载均衡,而且提供的服务已用docker进行部署,该docker提供访问的端口有两个,分别对应不同的服务。因此首先需要查看docker映射的端口,然后通过修改upsteam,location,proxy三个模块达到目的。 1.查看docker服务映射...

2018-08-29 18:51:24

阅读数 3731

评论数 0

nginx从入门到放弃(一、离线环境下安装nginx)

1.检查服务器上是否安装好了gcc、g++开发库 gcc --version g++ --version 如果没有,则先安装gcc和g++的对应的环境安装包,如服务器系统是centos,则使用以下命令。 yum install gcc yum install gcc gcc-c++ ...

2018-07-28 15:53:29

阅读数 1495

评论数 0

使用Python动态生成变量并且赋值,实现数据分组问题

前言 在处理一些爬取下来的数据时,存在分组问题,也就说,原来的数据集A中有20个类别,那么按照一般的思维的第一反应来说,我们首先要创建20个列表,然后遍历整个爬下来的数据,做if判断或者case-switch。but,我们用的语言是python,python里是没有case-switch的,因此...

2018-06-05 11:45:16

阅读数 965

评论数 0

python读写excel数据(list相关)

主要涉及python对excel的操作 顺手帮朋友处理毕业数据写的小脚本,她的问题如下: 样本前后顺序是固定的。id是升序排列之后的, time_dif表示时间差。想生成新变量count=所在的组里样本的数量。分组的依据为id 和 time_dif,分组规则为在同一id内,从第一个样本开始数,...

2018-03-09 10:58:46

阅读数 14018

评论数 0

使用Clion调试fastText源代码

前言 最近在导师的带领下开始研究fastText,fastText是由Facebook开源的快速文本分类器,比深度学习快了很多,一般深度学习要4,5个小时才能跑出来的大文本分类,fastText只要数十秒就能跑出来,而且效果比起深度学习来说也差不了多少。可以说是对于一些设备配置没那么好的研究是个...

2017-07-06 12:25:11

阅读数 1353

评论数 2

爬取bilibili弹幕制作词云

最近有部剧的片花看的很燃,正好我又是主演的fans,于是手痒忍不住把该片的弹幕爬取下来做个词云玩一玩。step 1 获得弹幕的XML文件 B站上的弹幕在静态页面上是没有的,所以还需要费点劲去找。 打开我们的目标视频:http://www.bilibili.com/video/av9979006...

2017-04-24 11:04:46

阅读数 5108

评论数 5

使用pysolr库操作solr(二 打造属于自己的搜索引擎)

之前有文章讲了基础的如何使用pysolr1操作solr,以及如何使用haystack编写属于自己的搜索引擎,但是呢,老大来了命令,现在是2017年了,咱们不用solr 3那种老版本,就用solr5吧!嘤嘤,也就是说不能直接用haystack框架,要自己写一个了。于是乎,搞事开始。1.环境版本 D...

2017-03-18 23:11:06

阅读数 1920

评论数 1

如何破解类似于简书登录的滑动式验证码

简书简书,时隔半年我又来搞事了,之前有在未登录模式下,爬取过简书的专题和 首页推荐文章,而现在在参考网上大神的代码搞过微博、知乎模拟登录后,感觉自己也是棒棒哒,于是开搞简书!一开始也以为最多就是一个验证码的图片咯,毕竟简书这么友好是吧~结果!excuse me??好吧,当时我就懵比了,简书你变了!...

2017-03-12 00:10:13

阅读数 1802

评论数 0

使用Django haystack集成solr编写搜索引擎(一)

1.环境配置 这一点很重要!请一定看仔细了!就是由于版本的不匹配,导致本博花了一天的时间在debug上,虽然solr 5.0.0的版本界面好看,然而不兼容haystack,这一点在踩过坑的人debug时得到了验证,haystack源码中solr_backend中有这么一段注释: 之后本博尝...

2017-03-01 15:30:55

阅读数 734

评论数 0

使用pysolr库操作solr(一)

1.环境准备 首先需要在本地安装好solr和pysolr。 solr现在更新到了6代,出于稳定性和pysolr兼容性的考虑,选择使用5.0.0版本,下载地址:http://archive.apache.org/dist/lucene/solr/5.0.0/。 至于如何安装以及对solr的初次体...

2017-02-24 18:52:32

阅读数 2985

评论数 0

Apache Solr入门教程(初学者之旅)

写在前面:本文涉及solr入门的各方面,请逐行阅读,相信能帮助你对solr有个清晰全面的了解并能简单实用。在Apache Solr初学者教程的这个例子中,我们将讨论有关如何安装最新版本的Apache Solr,并告诉你如何配置它。此外,我们将告诉你如何进行使用solr的样本数据文件索引。Apach...

2017-02-24 10:41:00

阅读数 856

评论数 0

提示
确定要删除当前文章?
取消 删除