自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 收藏
  • 关注

原创 Bireme实时同步mysql数据,debezium+kafka+bireme,同步到Greenplum,MongoDB,PostgreSQL

1、Bireme简介。Bireme 是一个 Greenplum / HashData 数据仓库的增量同步工具。目前支持 MySQL、PostgreSQL 和 MongoDB 数据源文档官方:https://github.com/HashDataInc/bireme/blob/master/README_zh-cn.mdBireme工作原理Bireme 从数据源读取数据 (Record),将其转化为内部格式 (Row) 并缓存,当缓存数据达到一定量,将这些数据合并为一个任务 (Task),每个.

2020-12-10 14:06:29 1271 1

原创 pgsql,函数,postgresql正则表达式匹配,re,手机号、姓名(包含少数民族)、身份证号

pgsql,(Postgresql) 正则匹配查询。项目中新增的功能,需要对手机号、姓名、身份证号等一些信息进行验证,最好的方法是通过正则表达式来验证,网上查了一些资料,写了这几个工具方法。pgsql,(Postgresql) 正则匹配查询。操作符 描述 例子 ~ 匹配正则表达式,大小写相关 'thomas' ~ '.*thomas.*' ~* 匹配正则表达式,大小写无关 'thomas' ~* '.*Thomas.*' !~ 不匹配正则表达

2020-11-23 14:12:03 5850

原创 将博客搬至CSDN

将博客搬至CSDN

2020-10-22 14:03:38 144

原创 hive常用功能:Hive数据导入导出方式

作为数据仓库的Hive,存储着海量用户使用的数据。在平常的Hive使用过程中,难免对遇到将外部数据导入到Hive或者将Hive中的数据导出来。今天主要就来学习一下Hive的几种数据导入和导出的方式。一、Hive数据导入方式这里主要介绍四种:从本地文件系统中导入数据到Hive表;从HDFS上导入数据到Hive表;从别的表中查询出相应的数据并导入到Hive表中;在创建表的时候通过从别的表中...

2019-09-12 19:32:58 251

原创 spark常用功能:使用Spark计算数列统计值

参考 :-- https://cloud.tencent.com/developer/article/1475487先来回顾一下数据和对应的统计结果:本文使用的是iris分类数据集,数据下载地址为:http://archive.ics.uci.edu/ml/datasets/Iris下载后转换为xlsx格式的文件,数据如下:对应的统计结果如下:在介绍之前,我还是想先说明一点,这一篇...

2019-09-12 19:18:47 2598

原创 震惊!不需hadoop环境运行scala和pyspark程序

Databricks官方是这样描述Databricks优势的:像Databricks这样的云平台提供了一套集成的、主机托管的解决方案,消除了企业采用Spark和确保大数据项目成功所面临的这三大障碍。我们为你提供了全面管理和调优的Spark集群,开发Spark的一群专家在大力支持。我们的平台为你提供了一种互动式工作区域,以便探查、可视化、合作和发布。如...

2019-05-21 15:17:05 199

原创 mysql分号分割开字段。拆分

问题-: mysql如何进行以,分割的字符串的拆分分割开逗号 分号的字段。其他字段自动补齐。 https://blog.csdn.net/u012009613/article/details/52770567SELECT s.* from (SELECT t.ID,t.time_old, substring_index( substring_index( t.all_content,...

2019-05-13 17:26:20 638

原创 keras基于CNN和序列标注的对联机器人

动手 #“对对联”,我们可以看成是一个句子生成任务,可以用seq2seq完成分析 #然而,我们再细想一下就会发现,相对于一般的句子生成任务,“对对联”有规律得多:1、上联和下联的字数一样;2、上联和下联的每一个字几乎都有对应关系。如此一来,其实对对联可以直接看成一个序列标注任务,跟分词、命名实体识别等一样的做法即可。这便是本文的出发点。说到这,其实本文就没有什么技术含量了,序列标注已经是再普通不...

2019-03-13 14:47:19 190

原创 maxmini极大极小搜索 α-β剪枝

https://www.cnblogs.com/hhh5460/p/7082112.html?from=singlemessage&isappinstalled=0python 井字棋(Tic Tac Toe)_读懂极大极小搜索和α-β剪枝https://blog.csdn.net/housong_csdn/article/details/73920746...

2018-09-20 15:10:52 159

原创 XGBoost 参数说明

XGBoost使用key-value字典的方式存储参数:params={'booster':'gbtree','objective':'multi:softmax',#多分类的问题'num_class':10,#类别数,与multisoftmax并用'gamma':0.1,#...

2018-09-10 16:49:47 462

原创 DC比赛员工离职预测训练赛(逻辑回归)

先 去掉些不要的列。 (2)Attrition:员工是否已经离职, 数量和部门的 关系。 薪酬水平与离职率的叠加条形图 。 注意,对象为object类型,会导致 后面运行出错, 发现, 改变 样本和测试集 比例 会影响分数, ——————得到结果 。 refer 灵感: https://www.colabug.com/4055159.htmlone-hot 编码 —— ...

2018-09-07 17:38:03 493

原创 pd-- get_dummies进行one-hot编码

离散特征的编码分为两种情况:1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}使用pandas可以很方便的对离散型特征进行one-hot编码 > import pandas as pddf = pd.DataF...

2018-09-07 15:54:23 125

原创 Hyperopt调参时: 'generator' object is not subs

原因与解决方案思考 :pip 装的时候就有警告 ,所以最先考虑的是类库问题,但是是在找不到是那个类库的问题,查了Hyperopt源码也没什么用.大概僵持了二十分钟,决定还是去Github查查issues.确实找到了解决方案. 原因与解决底层库networkx更新造成的,Hyperopt不支持networkx-2.0,我换成了1.11版本就OK了.pip install networkx==1....

2018-08-24 10:42:19 81

原创 sql题 --

需求 : 分月 统计访问人数 : 截取 从1开始 取7个字符长度 。 原始数据 如右边 所示 : 成功 : refer : https://blog.csdn.net/mrbcy/article/details/68953858

2018-08-17 17:05:16 42

原创 函数 -重复尝试 retry

函数重复执行 直到: 返回 Chrme/35 -- 等于或大于 30 的 Chrome/**

2018-08-13 17:54:08 72

原创 pandas 操作-2

增加一行方法1 : 方法 2 :修改某行某列的值频率 , 频数 》

2018-08-10 17:04:42 53

原创 hadoop-2.7.6 安装,hive安装

http://www.powerxing.com/install-hadoop/

2018-08-03 14:57:32 154

原创 HIVE -- 2 感悟

Hive学习使用一周感悟最近一段时间主要在学习Hive SQL语句并完成了一个小任务,熟悉了Hive SQL的基本语法和应用,对进一步学习使用Hive SQL来分析处理数据打下了一个基础。数据科学领域最重要的在于数据本身,一起技能和工具都是过程,数据既是开始也是结果,所以在处理数据时首先要了解数据。以Hive SQL表的join为例,在分析使用哪种语句之前,首先要确定自己想要得到的表需要...

2018-08-02 16:02:01 95

原创 P2P中的 RFM模型如何实际应用

https://www.zhihu.com/question/49439948/answer/130220645RLMF的模型那我们再回到客户关系里来,做一个简单的模型。图表显示了从客户第一次购买到上一次购买的时间轴,柱状图代表了客户每次购买的金额和频率。 我们可以看到,除了R、F、M,这个模型里加入了客户的“长度”这个概念,客户和我们做生意多久了,就叫“L”吧(Length)。...

2018-08-02 15:54:13 129

原创 hadoop--Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别

Pig一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用,不过我认为与其使用pig不如使用hive。:)Pig是一种数据流语言,用来快速轻松的处理巨大的数据。Pig包含两个部分:Pig Interface,Pig Latin。Pig可以非常方便的处理HDFS...

2018-08-02 14:19:06 175

原创 python进阶

5、and 和 orand返回第一个假值,如果都为真,返回最后一个真值。or返回第一个真值,如果都为假,返回最后一个假值。复制代码>>> a = "first">>> b = "second">>> 1 and a or b 1'first'>>> 0 and a or b 2'second'复制代码...

2018-08-02 11:29:59 23

原创 pandas* 尝试-2 **2列生成字典形式

2018-07-30 15:47:31 161

原创 peewee的使用 python orm (加爬虫技术)

自动提交,和定义 table name 。 爬虫。 -- 自动判断 返回的编码resp.encoding = resp.apparent_encoding爬虫- http协议。 http://yxtsunny.lofter.com/post/44049b_ae97046refer : python ORM 模块peewee:https://www.cnblogs.com/noway...

2018-07-13 18:04:40 56

原创 navicat,mysql常用操作

mysql更新表的某个字段,将字段的值截取后保存navicat复制一个表里所有的字段的快捷方式pgsql -- or mysql有时需要复制一个表里的所有的字段用来拼写sql字段 列表,并且还需要以逗号连接。可用sql查:1.这种是以逗号连接的字段列表:select group_concat(COLUMN_NAME) from information_schema.COLUMNS ...

2018-07-05 15:19:58 115

原创 pandas处理大数据的技巧

refer : https://yq.aliyun.com/articles/530060?spm=a2c4e.11153940.blogcont181452.16.413f2ef21NKngz#http://www.datayuan.cn/article/6737.htmhttps://yq.aliyun.com/articles/210393?spm=a2c4e.11153940.blo...

2018-07-05 09:53:35 157

原创 总结 logistic回归,随机森林,AdaBoost,KNN,常用的机器学习算法

贝叶斯分类器核心:将样本判定为后验概率最大的类决策树核心:一组嵌套的判定规则KNN算法核心:模板匹配,将样本分到离它最相似的样本所属的类PCA核心:向重构误差最小(方差最大)的方向做线性投影LDA核心:向最大化类间差异、最小化类内差异的方向线性投影LLE(流形学习)核心:用一个样本点的邻居的线性组合近似重构这个样本,将样本投影到低维空间中后依然保持这种线性组合关系等距映射...

2018-07-02 09:40:26 354

原创 pandas和 excel 尝试

增加一个 求和 : :新增最后一行 ,15行,求和: ok 求 state(美国各州 )列的 缩写.加到 abbrev 这一列 : key,value生成 字典和list : python3 用 dict(df['account'].items()) 和 list(df['account'].items())iteritems是python2中的写法, py3 ...

2018-06-26 17:01:32 38

原创 正则表达式

下图列出了Python支持的正则表达式元字符和语法: 1 -1Python通过re模块提供对正则表达式的支持。使用re的一般步骤是先将正则表达式的字符串形式编译为Pattern实例,然后使用Pattern实例处理文本并获得匹配结果(一个Match实例),最后使用Match实例获得信息,进行其他的操作。# encoding: UTF-8import re# 将正则表达式编译成Patte...

2018-06-21 17:57:40 77

原创 python批量修改txt文件,csv文件 编码格式

from os import listdirfrom chardet import detectfns = (fn for fn in listdir() if fn.endswith('.csv'))for fn in fns: with open(fn, 'rb+') as fp: content = fp.read() encoding ...

2018-06-15 09:30:49 236

原创 pgsql 去重

还有2种方法 ,参考 :https://yq.aliyun.com/articles/93515?t=t1

2018-06-12 15:57:09 899

原创 奥维ovobj 文件,转化为shp文件,再变sql文件导入到pgsql里

先变 KML 文件。再用 QGIS的矢量 变成 shp文件。 **最后 。 shp2pgsql -W utf8 -s 4326 /home/manbug/ningbo/NB.shp ningbo_524>/home/manbug/ningbo/NBnew.sqlhttps://www.cnblogs.com/think8848/p/6929351.html...

2018-06-08 15:30:53 5026

原创 深入MNIST,手写数字,加cnn

from __future__ import print_functionimport tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_data# number 1 to 10 datamnist = input_data.read_data_sets('MNIST_data', one_hot=T...

2018-06-07 14:48:33 61

原创 PGSQL创建自增的id-- postgresql nextval 使用

-- 这里的"test"专指postgre中的表空间(模式),默认的表空间是"public" DROP SEQUENCE if EXISTS "test"."testseq_id_seq"; CREATE SEQUENCE "test"."testseq_id_seq" INCREMENT 1 MINVALUE 1 MAXVALUE 9223372036854775807...

2018-06-07 11:11:39 2693

原创 POSTGIS,常用函数,实例

alter table public.dianping_qinzi add column geom geometry;单点 来生成 geom 用st_pointfromtext 函数:update public.dianping_yule set geom = st_pointfromtext('Point(' || lng || ' ' || lat || ')',4326 );多点...

2018-06-06 16:58:03 125

原创 TensorFlow基本原理,入门教程网址

TensorFlowTensorFlow™ 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。它灵活的架构让你可以在多种平台上展开计算,例如台式计算机中的一个或多个CPU(或GPU),服务器,移动设备等等。可用于机器学习和深度神经网络方面...

2018-06-05 15:50:52 102

原创 Doc2Vec,Word2Vec文本相似度 初体验。

参考资料 : https://radimrehurek.com/gensim/models/word2vec.html接上篇 : import jiebaall_list = jieba.cut(xl['工作内容'][0:6],cut_all=True)print(all_list)every_one = xl['工作内容'].apply(lambda x:jieba.cut(x))i...

2018-05-29 17:27:47 459

原创 jieba分词以及word2vec词语相似度

去除 标点符号,下一步 开始文本相似度计算: 参考文章 : http://www.jb51.net/article/139690.htmfrom gensim.models import Word2Vec model = Word2Vec(sentences, sg=1, size=100, window=5, min_count=5, negative=3, sample=0.0...

2018-05-28 17:50:18 467

原创 python异常处理

import re,random,tracebackkk ='<img src="//kanimg.9ku.com/Article/20170727/1501135687683763.gif" alt="不要惹怒胖子,后果自己看">'p =re.findall(r"src=\"//(.*?)\" alt=\"", kk)kk1 =''try: kk1 = p+ '3...

2018-05-23 17:01:40 25

原创 python,datetime 时间格式化输出

import datetime,redef parse_date(date_str): try: if not date_str: return None if "-" in date_str: if date_str.count("-") == 1: date = datet...

2018-05-17 14:36:10 149

原创 MongoDB-pymongo.errors.CursorNotFound: Cursor

python, python3.先从数据库中取得所有数据 db['test'].find({},{_id:0}),然后对结果进行for循环demos = db['demo'].find({},{"_id": 0})for cursor in demos: do_something()但是当do_something函数耗时过长,在cursor上长时间没有进行操作,引发cu...

2018-05-16 17:31:13 77

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除