coding-v-CSDN博客

原创 Bireme实时同步mysql数据，debezium+kafka+bireme，同步到Greenplum，MongoDB，PostgreSQL

1、Bireme简介。Bireme 是一个 Greenplum / HashData 数据仓库的增量同步工具。目前支持 MySQL、PostgreSQL 和 MongoDB 数据源文档官方：https://github.com/HashDataInc/bireme/blob/master/README_zh-cn.mdBireme工作原理Bireme 从数据源读取数据 (Record)，将其转化为内部格式 (Row) 并缓存，当缓存数据达到一定量，将这些数据合并为一个任务 (Task)，每个.

2020-12-10 14:06:29 1578 1

原创 pgsql，函数，postgresql正则表达式匹配，re，手机号、姓名（包含少数民族）、身份证号

pgsql,(Postgresql) 正则匹配查询。项目中新增的功能，需要对手机号、姓名、身份证号等一些信息进行验证，最好的方法是通过正则表达式来验证，网上查了一些资料，写了这几个工具方法。pgsql,(Postgresql) 正则匹配查询。操作符描述例子 ~ 匹配正则表达式，大小写相关 'thomas' ~ '.*thomas.*' ~* 匹配正则表达式，大小写无关 'thomas' ~* '.*Thomas.*' !~ 不匹配正则表达

2020-11-23 14:12:03 6745

原创将博客搬至CSDN

将博客搬至CSDN

2020-10-22 14:03:38 215

原创 hive常用功能：Hive数据导入导出方式

作为数据仓库的Hive，存储着海量用户使用的数据。在平常的Hive使用过程中，难免对遇到将外部数据导入到Hive或者将Hive中的数据导出来。今天主要就来学习一下Hive的几种数据导入和导出的方式。一、Hive数据导入方式这里主要介绍四种：从本地文件系统中导入数据到Hive表；从HDFS上导入数据到Hive表；从别的表中查询出相应的数据并导入到Hive表中；在创建表的时候通过从别的表中...

2019-09-12 19:32:58 340

原创 spark常用功能：使用Spark计算数列统计值

参考：-- https://cloud.tencent.com/developer/article/1475487先来回顾一下数据和对应的统计结果：本文使用的是iris分类数据集，数据下载地址为：http://archive.ics.uci.edu/ml/datasets/Iris下载后转换为xlsx格式的文件，数据如下：对应的统计结果如下：在介绍之前，我还是想先说明一点，这一篇...

2019-09-12 19:18:47 2809

原创震惊！不需hadoop环境运行scala和pyspark程序

Databricks官方是这样描述Databricks优势的：像Databricks这样的云平台提供了一套集成的、主机托管的解决方案，消除了企业采用Spark和确保大数据项目成功所面临的这三大障碍。我们为你提供了全面管理和调优的Spark集群，开发Spark的一群专家在大力支持。我们的平台为你提供了一种互动式工作区域，以便探查、可视化、合作和发布。如...

2019-05-21 15:17:05 330

原创 mysql分号分割开字段。拆分

问题-： mysql如何进行以,分割的字符串的拆分分割开逗号分号的字段。其他字段自动补齐。 https://blog.csdn.net/u012009613/article/details/52770567SELECT s.* from (SELECT t.ID,t.time_old, substring_index( substring_index( t.all_content,...

2019-05-13 17:26:20 746

原创 keras基于CNN和序列标注的对联机器人

动手 #“对对联”，我们可以看成是一个句子生成任务，可以用seq2seq完成分析 #然而，我们再细想一下就会发现，相对于一般的句子生成任务，“对对联”有规律得多：1、上联和下联的字数一样；2、上联和下联的每一个字几乎都有对应关系。如此一来，其实对对联可以直接看成一个序列标注任务，跟分词、命名实体识别等一样的做法即可。这便是本文的出发点。说到这，其实本文就没有什么技术含量了，序列标注已经是再普通不...

2019-03-13 14:47:19 285

原创 maxmini极大极小搜索 α-β剪枝

https://www.cnblogs.com/hhh5460/p/7082112.html?from=singlemessage&isappinstalled=0python 井字棋(Tic Tac Toe)_读懂极大极小搜索和α-β剪枝https://blog.csdn.net/housong_csdn/article/details/73920746...

2018-09-20 15:10:52 243

原创 XGBoost 参数说明

XGBoost使用key-value字典的方式存储参数：params={'booster':'gbtree','objective':'multi:softmax',#多分类的问题'num_class':10,#类别数，与multisoftmax并用'gamma':0.1,#...

2018-09-10 16:49:47 683

原创 DC比赛员工离职预测训练赛（逻辑回归）

先去掉些不要的列。 (2)Attrition：员工是否已经离职，数量和部门的关系。薪酬水平与离职率的叠加条形图。注意，对象为object类型，会导致后面运行出错，发现，改变样本和测试集比例会影响分数， ——————得到结果。 refer 灵感: https://www.colabug.com/4055159.htmlone-hot 编码 —— ...

2018-09-07 17:38:03 620

原创 pd-- get_dummies进行one-hot编码

离散特征的编码分为两种情况：1、离散特征的取值之间没有大小的意义，比如color：[red,blue],那么就使用one-hot编码2、离散特征的取值有大小的意义，比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}使用pandas可以很方便的对离散型特征进行one-hot编码 > import pandas as pddf = pd.DataF...

2018-09-07 15:54:23 194

原创 Hyperopt调参时: 'generator' object is not subs

原因与解决方案思考 :pip 装的时候就有警告，所以最先考虑的是类库问题,但是是在找不到是那个类库的问题,查了Hyperopt源码也没什么用.大概僵持了二十分钟,决定还是去Github查查issues.确实找到了解决方案. 原因与解决底层库networkx更新造成的,Hyperopt不支持networkx-2.0,我换成了1.11版本就OK了.pip install networkx==1....

2018-08-24 10:42:19 170

原创 sql题 --

需求：分月统计访问人数：截取从1开始取7个字符长度。原始数据如右边所示：成功： refer : https://blog.csdn.net/mrbcy/article/details/68953858

2018-08-17 17:05:16 105

原创函数 -重复尝试 retry

函数重复执行直到：返回 Chrme/35 -- 等于或大于 30 的 Chrome/**

2018-08-13 17:54:08 142

原创 pandas 操作-2

增加一行方法1 ：方法 2 ：修改某行某列的值频率，频数》

2018-08-10 17:04:42 117

原创 hadoop-2.7.6 安装，hive安装

http://www.powerxing.com/install-hadoop/

2018-08-03 14:57:32 229

原创 HIVE -- 2 感悟

Hive学习使用一周感悟最近一段时间主要在学习Hive SQL语句并完成了一个小任务，熟悉了Hive SQL的基本语法和应用，对进一步学习使用Hive SQL来分析处理数据打下了一个基础。数据科学领域最重要的在于数据本身，一起技能和工具都是过程，数据既是开始也是结果，所以在处理数据时首先要了解数据。以Hive SQL表的join为例，在分析使用哪种语句之前，首先要确定自己想要得到的表需要...

2018-08-02 16:02:01 182

原创 P2P中的 RFM模型如何实际应用

https://www.zhihu.com/question/49439948/answer/130220645RLMF的模型那我们再回到客户关系里来，做一个简单的模型。图表显示了从客户第一次购买到上一次购买的时间轴，柱状图代表了客户每次购买的金额和频率。我们可以看到，除了R、F、M，这个模型里加入了客户的“长度”这个概念，客户和我们做生意多久了，就叫“L”吧(Length)。...

2018-08-02 15:54:13 227

原创 hadoop--Hadoop生态上几个技术的关系与区别：hive、pig、hbase 关系与区别

Pig一种操作hadoop的轻量级脚本语言，最初又雅虎公司推出，不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用，不过我认为与其使用pig不如使用hive。：)Pig是一种数据流语言，用来快速轻松的处理巨大的数据。Pig包含两个部分：Pig Interface,Pig Latin。Pig可以非常方便的处理HDFS...

2018-08-02 14:19:06 284

原创 python进阶

5、and 和 orand返回第一个假值，如果都为真，返回最后一个真值。or返回第一个真值，如果都为假，返回最后一个假值。复制代码>>> a = "first">>> b = "second">>> 1 and a or b 1'first'>>> 0 and a or b 2'second'复制代码...

2018-08-02 11:29:59 69

原创 pandas* 尝试-2 **2列生成字典形式

2018-07-30 15:47:31 263

原创 peewee的使用 python orm （加爬虫技术）

自动提交，和定义 table name 。爬虫。 -- 自动判断返回的编码resp.encoding = resp.apparent_encoding爬虫- http协议。 http://yxtsunny.lofter.com/post/44049b_ae97046refer ： python ORM 模块peewee：https://www.cnblogs.com/noway...

2018-07-13 18:04:40 105

原创 navicat，mysql常用操作

mysql更新表的某个字段,将字段的值截取后保存navicat复制一个表里所有的字段的快捷方式pgsql -- or mysql有时需要复制一个表里的所有的字段用来拼写sql字段列表，并且还需要以逗号连接。可用sql查：1.这种是以逗号连接的字段列表：select group_concat(COLUMN_NAME) from information_schema.COLUMNS ...

2018-07-05 15:19:58 166

原创 pandas处理大数据的技巧

refer ： https://yq.aliyun.com/articles/530060?spm=a2c4e.11153940.blogcont181452.16.413f2ef21NKngz#http://www.datayuan.cn/article/6737.htmhttps://yq.aliyun.com/articles/210393?spm=a2c4e.11153940.blo...

2018-07-05 09:53:35 282

原创总结 logistic回归,随机森林,AdaBoost,KNN,常用的机器学习算法

贝叶斯分类器核心：将样本判定为后验概率最大的类决策树核心：一组嵌套的判定规则KNN算法核心：模板匹配，将样本分到离它最相似的样本所属的类PCA核心：向重构误差最小(方差最大)的方向做线性投影LDA核心：向最大化类间差异、最小化类内差异的方向线性投影LLE(流形学习)核心：用一个样本点的邻居的线性组合近似重构这个样本，将样本投影到低维空间中后依然保持这种线性组合关系等距映射...

2018-07-02 09:40:26 483

原创 pandas和 excel 尝试

增加一个求和：：新增最后一行，15行，求和： ok 求 state(美国各州 )列的缩写.加到 abbrev 这一列 : key,value生成字典和list ： python3 用 dict(df['account'].items()) 和 list(df['account'].items())iteritems是python2中的写法, py3 ...

2018-06-26 17:01:32 76

原创正则表达式

下图列出了Python支持的正则表达式元字符和语法： 1 -1Python通过re模块提供对正则表达式的支持。使用re的一般步骤是先将正则表达式的字符串形式编译为Pattern实例，然后使用Pattern实例处理文本并获得匹配结果(一个Match实例)，最后使用Match实例获得信息，进行其他的操作。# encoding: UTF-8import re# 将正则表达式编译成Patte...

2018-06-21 17:57:40 156

原创 python批量修改txt文件,csv文件编码格式

from os import listdirfrom chardet import detectfns = (fn for fn in listdir() if fn.endswith('.csv'))for fn in fns: with open(fn, 'rb+') as fp: content = fp.read() encoding ...

2018-06-15 09:30:49 306

原创 pgsql 去重

还有2种方法，参考：https://yq.aliyun.com/articles/93515?t=t1

2018-06-12 15:57:09 1018

原创奥维ovobj 文件，转化为shp文件，再变sql文件导入到pgsql里

先变 KML 文件。再用 QGIS的矢量变成 shp文件。 **最后。 shp2pgsql -W utf8 -s 4326 /home/manbug/ningbo/NB.shp ningbo_524>/home/manbug/ningbo/NBnew.sqlhttps://www.cnblogs.com/think8848/p/6929351.html...

2018-06-08 15:30:53 8118

原创深入MNIST，手写数字，加cnn

from __future__ import print_functionimport tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_data# number 1 to 10 datamnist = input_data.read_data_sets('MNIST_data', one_hot=T...

2018-06-07 14:48:33 124

原创 PGSQL创建自增的id-- postgresql nextval 使用

-- 这里的"test"专指postgre中的表空间(模式)，默认的表空间是"public" DROP SEQUENCE if EXISTS "test"."testseq_id_seq"; CREATE SEQUENCE "test"."testseq_id_seq" INCREMENT 1 MINVALUE 1 MAXVALUE 9223372036854775807...

2018-06-07 11:11:39 2879

原创 POSTGIS，常用函数，实例

alter table public.dianping_qinzi add column geom geometry;单点来生成 geom 用st_pointfromtext 函数:update public.dianping_yule set geom = st_pointfromtext('Point(' || lng || ' ' || lat || ')',4326 );多点...

2018-06-06 16:58:03 213

原创 TensorFlow基本原理，入门教程网址

TensorFlowTensorFlow™ 是一个采用数据流图(data flow graphs)，用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作，图中的线(edges)则表示在节点间相互联系的多维数据数组，即张量(tensor)。它灵活的架构让你可以在多种平台上展开计算，例如台式计算机中的一个或多个CPU(或GPU)，服务器，移动设备等等。可用于机器学习和深度神经网络方面...

2018-06-05 15:50:52 182

原创 Doc2Vec,Word2Vec文本相似度初体验。

参考资料： https://radimrehurek.com/gensim/models/word2vec.html接上篇： import jiebaall_list = jieba.cut(xl['工作内容'][0:6],cut_all=True)print(all_list)every_one = xl['工作内容'].apply(lambda x:jieba.cut(x))i...

2018-05-29 17:27:47 554

原创 jieba分词以及word2vec词语相似度

去除标点符号，下一步开始文本相似度计算：参考文章： http://www.jb51.net/article/139690.htmfrom gensim.models import Word2Vec model = Word2Vec(sentences, sg=1, size=100, window=5, min_count=5, negative=3, sample=0.0...

2018-05-28 17:50:18 615

原创 python异常处理

import re,random,tracebackkk ='<img src="//kanimg.9ku.com/Article/20170727/1501135687683763.gif" alt="不要惹怒胖子，后果自己看">'p =re.findall(r"src=\"//(.*?)\" alt=\"", kk)kk1 =''try: kk1 = p+ '3...

2018-05-23 17:01:40 75

原创 python,datetime 时间格式化输出

import datetime,redef parse_date(date_str): try: if not date_str: return None if "-" in date_str: if date_str.count("-") == 1: date = datet...

2018-05-17 14:36:10 211

原创 MongoDB-pymongo.errors.CursorNotFound: Cursor

python, python3.先从数据库中取得所有数据 db['test'].find({}，{_id:0})，然后对结果进行for循环demos = db['demo'].find({},{"_id": 0})for cursor in demos: do_something()但是当do_something函数耗时过长，在cursor上长时间没有进行操作，引发cu...

2018-05-16 17:31:13 173

空空如也

空空如也