2020年01月_小金子的夏天

05月 04月 03月 02月 01月

原创 habase实现手机号对应md5彩虹板

#!/usr/bin/env python-- coding:utf-8 --import hashlib,timefrom thrift.transport.TSocket import TSocketfrom thrift.transport.TTransport import TBufferedTransportfrom thrift.protocol import TBinary...

2020-01-17 18:43:25 594

原创 etl工具比较

参考链接：《转载：开源ETL工具和商业ETL工具比较(译文)》https://blog.csdn.net/iteye_19311/article/details/82334793六种主流ETL 工具的比较 https://www.cnblogs.com/DataPipeline2018/p/11131723.html...

2020-01-17 11:39:58 459

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。通常情况下，在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。　　ETL的设计分三部分：数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我们也是从这三部分出发。...

2020-01-17 11:34:43 1493

原创 ETL简介

ETL，是英文 Extract-Transform-Load 的缩写，用来描述将数据从来源端经过抽取（extract）、交互转换（transform）、加载（load）至目的端的过程。ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，因而也称为数据仓库技术。其目的是将分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。可以看出，ETL要做三部分工作，数据抽取、数...

2020-01-17 11:32:43 609

原创 flink原理简介

一、Flink是什么？Apache Flink是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程序。此外，Flink的运行时本身也支持迭代算法的执行。二、Flink的优点：（1）同时支持高吞吐、低延迟、高性能； Flink 是目前唯一能...

2020-01-16 18:14:06 545

原创 flink与spark的对比

Spark 和 Flink 都是通用的开源大规模处理引擎，目标是在一个系统中支持所有的数据处理以带来效能的提升。两者都有相对比较成熟的生态系统。是下一代大数据引擎最有力的竞争者。Spark 的生态总体更完善一些，在机器学习的集成和易用性上暂时领先。Flink 在流计算上有明显优势，核心架构和模型也更透彻和灵活一些。Flink 和 Spark 对比通过前面的学习，我们了解到，Spark和Fl...

2020-01-16 18:08:42 1381

原创机器学习模型效果之Roc、Auc

ROC曲线。其定义是：接收者操作特性曲线(receiver operating characteristic curve),它通过将连续变量设定出多个不同的临界值，从而计算出一系列真正率和假正率，再以假正率为纵坐标、真正率为横坐标绘制成曲线，曲线下面积越大，诊断准确性越高。在ROC曲线上，最靠近坐标图左上方的点为假正率和真正率均较高的临界值。ROC关注两个指标True Positive Ra...

2020-01-16 12:21:00 554

原创 tf-idf实例二

#!/usr/bin/env python-- coding:utf-8 --import numpy as npimport pandas as pdfrom collections import CounterdocA = ‘The cat sat on my bed’docB = ‘The dog sat on my knees’切割文档bowA = docA.split(’...

2020-01-15 12:31:09 517

原创 tf-idf实例一

#!/usr/bin/env python-- coding:utf-8 --import nltkimport mathimport jiebaimport stringfrom nltk.corpus import stopwordsfrom collections import Counterfrom nltk.stem.porter import *from sklear...

2020-01-15 12:28:11 820

原创部分增量模型与全量模型的调用实例

增量学习与全量学习模型对比1.增量学习可将数据分成多份对模型进行多次训练，不用担心数据量过大2.全量学习需要将训练数据全部加入内存，需要注意内存优化，比如及时gc import pandas as pd #导入数据分析库示例：from random import shuffle #导入随机函数shuffle，用来打算数据 import matplotlib.pyplot as plt im...

2020-01-14 11:14:14 1977

原创增量学习实例

增量学习有几点需要注意：1.不是所有模型都支持增量学习，参考：https://scikit-learn.org/stable/auto_examples/applications/plot_out_of_core_classification.html2. fit 与 partial_fit函数的区别需要注意：可以fit,然后partfit；如果没有fit过程，直接进行partialfit,需...

2020-01-14 11:10:24 3134 2

原创 neo4j属性图模型

Neo4j - 数据模型Neo4j图数据库遵循 **属性图模型 ** 来存储和管理其数据。属性图模型规则：表示节点，关系和属性中的数据节点和关系都包含属性关系及节点属性是键值对节点用圆圈表示，关系用方向键表示。关系具有方向：单向和双向。每个关系包含“开始节点”或“从节点”和“到节点”或“结束节点”在属性图数据模型中，关系应该是定向的。如果我们尝试创建没有方向的关系，那么它将抛出一...

2020-01-14 10:49:33 1480

原创关系型数据库与图数据库比较

关系型数据库与图数据库比较关系型数据库是基于实体建模理念设计。该设计理念并没有提供对这些实体间关系的直接支持。在需要描述这些实体之间的关系时，我们常常需要创建一个关联表以记录这些数据之间的关联关系，而且这些关联表常常不用来记录除外键之外的其它数据。也就是说，这些关联表也仅仅是通过关系型数据库所已有的功能来模拟实体之间的关系。这种模拟导致了两个非常糟糕的结果：数据库需要通过关联表间接地维护实...

2020-01-14 10:45:30 2282

原创 jieba nltk 进行中英文分词

Jieba、NLTK等中英文分词工具进行分词建议：中文分词使用 jieba（SnowNlp、THULAC、NLPIR、StanfordCoreNLP）进行分词，英文使用 NLTK进行分词；还有git上的一个英文文本分词(无空格)模块wordninja。1.中文分词1.jieba分词import jieba import reChinese=‘央视315晚会曝光湖北省知名的神丹牌、莲田牌“...

2020-01-14 10:38:14 4376

原创 python保存加载机器学习模型实例

尽量用pickle 不要用joblib,joblib好像后续不支持了。import pickledatafile2 =’…/data/model.xls’datafile3=’…/data/model3.xls’ data2=pd.read_excel(datafile2)print(“data2:”,data2)data3=pd.read_excel(datafile3)print(...

2020-01-14 10:33:02 436

lstm实例：基于lstm的DGA域名检测（python代码实例）

lstm实例：基于lstm的DGA域名检测（python代码实例） DGA(域名生成算法)是一种利用随机字符来生成C&C域名，从而逃避域名黑名单检测的技术手段。例如，一个由Cryptolocker创建的DGA生成域xeogrhxquuubt.com，如果我们的进程尝试其它建立连接，那么我们的机器就可能感染Cryptolocker勒索病毒。域名黑名单通常用于检测和阻断这些域的连接，但对于不断更新的DGA算法并不奏效。基于深度学习模型识别dga域名。

2023-07-26

syslogStructure.rar

python实现

2021-07-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

WangYouJin321的博客