大数据流浪法师-CSDN博客

转载 Flink官方文档笔记04 从Stateful Functions角度看看Flink

文章目录Stateful Functions — Event-driven Applications on Apache Flink®Stateful Functions ApplicationsStateful Functions — Event-driven Applications on Apache Flink®StatefulFunctions 状态函数-运行在Flink上的事件驱动APPStateful Functions is an API that simplifies buildin

2020-07-23 21:28:28 1599

转载 Flink官方文档笔记03 从操作的角度看看Flink

文章目录What is Apache Flink? — OperationsRun Your Applications Non-Stop 24/7Update, Migrate, ==Suspend==（暂停，悬挂）, and ==Resume==（恢复） Your ApplicationsMonitor and Control Your ApplicationsWhat is Apache Flink? — OperationsApache Flink is a framework for state

2020-07-23 17:50:55 199

转载 Flink官方文档笔记02 从应用的角度看看Flink

文章目录What is Apache Flink? — ApplicationsBuilding Blocks for Streaming ApplicationsStreamsStateTimeLayered APIsThe ProcessFunctionsThe DataStream APISQL & Table APILibrariesWhat is Apache Flink? — ApplicationsApache Flink is a framework for stateful c

2020-07-23 17:07:51 406 1

翻译 Flink官方文档笔记01 从架构的角度看看Flink

文章目录从架构的角度来看看Flink是什么处理无界和有界数据什么是无界流？什么是有界流？你可以在任何地方部署你的APP！你可以运行任意规模的程序！充分地利用内存性能从架构的角度来看看Flink是什么What is Apache Flink? — ArchitectureApache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded dat

2020-07-23 14:46:15 272

转载 Sqoop官方文档学习笔记02 Sqoop Tools

6. Sqoop Tools6.1. Using Command Aliases6.2. Controlling the Hadoop Installation6.3. Using Generic and Specific Arguments6.4. Using Options Files to Pass Arguments6.5. Using ToolsSqoop is a collection of related tools. To use Sqoop, you specify the t

2020-07-23 08:03:35 453

转载 Sqoop官方文档学习笔记01 Sqoop基本概念及介绍

1. IntroductionSqoop is a tool designed to transfer data between Hadoop and relational databases or mainframes（大型主机）. You can use Sqoop to import data from a relational database management system (RDBMS) such as MySQL or Oracle or a mainframe into the Had

2020-07-22 11:13:40 345

转载分类算法的评估指标

文章目录ACC、ROC、AUC是什么?T、F、P、N、R（前置概念）TPR/FPR/ACC（ACC的解释）F1 Score案例计算（能直接用ACC代表算法好坏吗？）随机算法ROC曲线AUC最后的结论:ACC、ROC、AUC是什么?https://blog.csdn.net/kMD8d5R/article/details/98552574https://www.jianshu.com/p/82903edb58dchttps://blog.csdn.net/resourse_sharing/artic

2020-07-18 17:23:32 410

转载 ID3、C4.5、CART三种决策树

文章目录对比ID3决策树C4.5决策树CART决策树前剪枝后减枝决策树和随机森林过拟合与欠拟合对比一棵决策树包含一个根结点、若干个内部结点和若干个叶结点；叶结点对应于决策结果，其他每个结点则对应一个属性测试；每个结点包含的样本结合根据属性测试的结果被划分到子结点中；根结点包含样本全集，从根结点到每个叶结点的每个叶结点的路径对应一个判定测试序列。决策树学习的目的是为了产生一棵泛化能力强，也就是能够处理未见实例的决策树。ID3决策树信息熵是度量样本集合纯度最常用的一种指标。假设样本集合D中第

2020-07-18 09:17:02 296

转载信息熵条件熵信息增益信息增益比 GINI系数

文章目录数据(Data)信息(Information)信息量(Quantity Of Information)此文是一些机器学习常用概念的整理，搬运过来的。在信息论与概率统计学中，熵（entropy）是一个很重要的概念。在机器学习与特征工程中，熵的概念也用得很多。数据(Data)“承载了信息的东西”才是数据信息(Information)信息是用来消除不确定性的东西信息量(Quantity Of Information)2.15.4.香农公式(Shannon Formula)2

2020-07-17 20:35:20 1485

转载 K-Means 总结

http://shabal.in/visuals/kmeans/3.htmlhttps://www.naftaliharris.com/blog/visualizing-k-means-clustering/计算步骤选择 K 个点作为初始聚类中心计算其他的点到中心点的距离, 进行聚类, 使用欧式距离重新计算每个聚类的中心点, 再次聚类直到中心点不再变化, 或者达到迭代次数2.2.2.快速体验2.2.2.1.数据集IRIS数据集由Fisher在1936年整理的一个经典数据集，在统

2020-07-17 16:06:04 1745

转载 OozieCDH 安装

文章目录第一步：修改core-site.xml第二步：上传oozie的安装包并解压第三步：解压hadooplibs到与oozie平行的目录第四步：创建libext目录第五步：拷贝依赖包到libext第六步：添加ext-2.2.zip压缩包第七步：修改oozie-site.xml第八步：创建mysql数据库第十步：创建oozie的数据库表第十一步：打包项目，生成war包第十二步：配置oozie的环境变量第十三步：启动与关闭oozie服务第十四步：浏览器页面访问oozie第一步：修改core-site.xml

2020-06-22 18:20:34 403

转载 Python 导入多个包时更漂亮的代码

本来是这样的：都挤在一行里了，浏览代码时看着不方便from sqlalchemy import create_engine,Integer,String,Column,Float,Boolean,DECIMAL,DateTime,DATE,Time,Text,Enum化妆后：from sqlalchemy import ( create_engine, Integer, String, Column, Float, Boolean, DECIM

2020-06-18 17:22:22 1121

原创 Python SQLAlchemy 简单的CRUD

大家好，我是练习时长两年半的大数据练习生，喜欢数学，AI，大数据。写博客是为了总结，分享，自娱自乐。希望写出的东西会对自己，对别人都有价值！废话不多说，现在是个终身学习的时代，开始学习了！奥力给！干了兄弟们！是时候展现真正的技术了：????????????????????????准备工作昨天写了SQLAlchemy用ORM描述表关系，今天就总结一下Alchemy的CRUD操作。CRUD就是增删改查。今天了解到MySQLdb一般是py2.x版本使用的老东西了，现在人们都用pymysql了。还

2020-06-18 16:59:46 1045

原创 Faker 新版本Faker类的用法

大家好，我是练习时长两年半的大数据练习生，喜欢数学，AI，大数据。写博客是为了总结，分享，自娱自乐。希望写出的东西会对自己，对别人都有价值！废话不多说，现在是个终身学习的时代，开始学习了！奥力给！干了兄弟们！是时候展现真正的技术了：????????????????????????本文是一篇学习笔记，外加百度上搜刮来的知识，外加自己总结的知识：原文链接：https://faker.readthedocs.io/en/master/fakerclass.html#proxy-class-implem

2020-06-18 10:01:52 1279

原创 Python Faker 入门大纲总结，建立对Faker的第一印象

大家好，我是练习时长两年半的大数据练习生，喜欢数学，AI，大数据。写博客是为了总结，分享，自娱自乐。希望写出的东西会对自己，对别人都有价值！废话不多说，现在是个终身学习的时代，开始学习了！奥力给！干了兄弟们！是时候展现真正的技术了：????????????????????????

2020-06-16 10:14:35 1129

原创 Python SQLAlchemy 表的ORM描述

准备工作先给你的python安装以下包sqlalchemypython-mysqldbORMORM全称 Object Relational Mapping 对象关系映射ORM 将数据库中的表与面向对象语言中的类建立了一种对应关系。这样操作数据库或者数据库中的表或者表中的一条记录就可以直接通过操作类或者类的实例来完成。SQLAlchemySQLAlchemy是一个常用的ORM工具...

2020-06-14 00:08:50 455

翻译 Python SQLAlchemy Alembic的使用

大家好，我是练习时长两年半的大数据练习生，喜欢数学，AI，大数据。写博客是为了总结，分享，自娱自乐。希望写出的东西会对自己，对别人都有价值！废话不多说，现在是个终身学习的时代，开始学习了！奥力给！干了兄弟们！是时候展现真正的技术了：????????????????????????本文是一篇翻译型学习笔记，原文如下链接。https://www.pythoncentral.io/migrate-sqlalchemy-databases-alembic/AlembicAlembic is a li

2020-06-13 15:05:09 923

原创 Python 类的基础用法

文章目录类定义`__init__()`方法类的方法类定义语法格式如下，注意缩进：class ClassName: 语句1 语句2 ... ... 语句N举个例子class Apple: """这是一个苹果""" price = 5 def fun(self): return 'hello world,this is an apple'实例化类x = Apple()访问类的属性和方法print("Apple

2020-06-13 14:56:54 476

转载 Git + Gitee码云 + IDEA使用笔记

> 大家好，我是练习时长两年半的大数据练习生，喜欢数学，AI，大数据。> 写博客是为了`总结，分享，自娱自乐`。希望写出的东西会`对自己，对别人都有价值！`> ==废话不多说，现在是个终身学习的时代，开始学习了！奥力给！干了兄弟们！==> 是时候展现真正的技术了：????????????????????????...

2020-06-10 08:39:57 427

原创还不知道SparkSQL中left semi join操作与left join操作的区别？进来一看便知！

leftJoin类似于SQL中的左外关联left outer join，返回结果以第一个RDD为主，关联不上的记录为空。部分场景下可以使用left semi join替代left join：因为 left semi join 是 in(keySet) 的关系，遇到右表重复记录，左表会跳过,性能更高，而 left join 则会一直遍历。但是left semi join 中最后 select 的结果中只许出现左表中的列名，因为右表只有 join key 参与关联计算了。...

2020-06-09 07:59:39 3616

原创 Oozie 概念

Oozie 概念Oozie是运行在hadoop平台上的一种工作流调度引擎，它可以用来调度与管理hadoop任务，如，MapReduce、Pig等。oozie的组件介绍workFlow：工作流，定义工作流任务的执行，主要由一个个的action组成，每个action都是一个任务，在xml中进行配置即可Coordinator ：协作器，可以理解为工作流的协调器，可以将多个工作流协调成一个工作流来进行处理。也是oozie当中的定时任务调度的模块,Bundle ：捆，束。多个Coordinator 的抽象

2020-06-08 10:43:56 300

原创 [BUG记录]idea创建子MAVEN模块再remove再delete，再次创建同名子MAVEN模块就会丢失资源文件夹和造成pom文件失效

1，先在项目下创建一个MAVEN模块2，3，命名为good00014,可以看到这里是正常的，另外pom文件也可以正常导包5，接下来remove并delete这个子模块6，按照上面的步骤创建一个同名的子模块可以发现，没有自动标记工作文件夹，并且这时候的pom里写啥东西都没用了。idea会显示import过程，但是这个模块里无法使用pom文件里导入的包了。目前还没有找到解决办法，如果有谁知道怎么解决的可以下方评论，谢谢了！所以创建子模块要谨慎！！！...

2020-06-07 21:12:09 1121 3

原创 HBase 用Spark导入MySQL数据到HBase

用Spark导入MySQL数据到HBase企业中大规模数据存储于HBase背景：项目中有需求，要频繁地、快速地向一个表中初始化数据。因此如何加载数据，如何提高速度是需要解决的问题。一般来说，作为数据存储系统会分为检索和存储两部分。检索是对外暴露数据查询接口。存储一是要实现数据按固定规则存储到存储介质中（如磁盘、内存等），另一方面还需要向外暴露批量装载的工具。如DB2的 db2load 工具，在关闭掉日志的前提下，写入速度能有显著提高。HBase数据库提供批量导入数据到表功能：1、Hbase

2020-06-01 16:04:48 750

原创 HBase 用MapReduce导入MySQL中的数据到HBase

用MapReduce导入MySQL中的数据到HBase将MySQL表的数据先导入到HDFS文件中（比如TSV格式），编写MapReduce将文本文件数据转换为HFile文件，加载到HBase表中。第一步、用Sqoop在Hive中创建表/export/servers/sqoop/bin/sqoop create-hive-table \--connect jdbc:mysql://bd001:3306/tags_dat2 \--table tbl_logs \--username root \

2020-06-01 15:41:49 554

原创 HBase ImportTSV

TSV文件与CSV文件的区别TSV是Tab-separatedvalues的缩写,即制表符分隔值。相对来说CSV,Comma-separatedvalues(逗号分隔值)更常见一些。ImportTSV功能描述：ImportTSV可以将tsv（也可以是csv，每行数据中各个字段使用分隔符分割）格式文本数据，加载到HBase表中。采用Put方式加载导入采用BulkLoad方式批量加载导入ImportTSV这个功能藏在HBase自带的工具类jar包里。使用如下命令，查看HBase官方自带工具类

2020-06-01 15:05:06 1773

原创 Sqoop 从MySQL导入数据到HBase的命令参考

使用SQOOP将MySQL表的数据导入到HBase表中，指定表的名称、列簇及RowKey范例如下所示：/export/servers/sqoop/bin/sqoop import \-D sqoop.hbase.add.row.key=true \--connect jdbc:mysql://bd001:3306/tags_dat2 \--username root \--password 123456 \--table tbl_users \--hbase-create-table \-

2020-06-01 14:44:25 1248

原创 Hive 常见问题总结

row_number是排完序后再取topN，相同于去重

2020-05-28 10:51:48 214

原创 ELM神经网络

A、C 是传统的神经网络做法，和存在的问题。（BP算法）ELM（极限学习机 Extreme Learning Maching)该算法随机产生输入层与隐层间的连接权重及隐层神经元的阈值，且在训练过程中无需调整，只需要设置隐层神经元的个数，便可以获得唯一的全局最优解。https://blog.csdn.net/csuwlf/article/details/85002255...

2020-05-28 10:49:31 3493

原创特征选择算法

启发式搜索序列向前选择序列向后选择双向搜索增L去R选择算法序列浮动选择决策树完全搜索分支限界搜索

2020-05-28 10:42:11 252

原创 Zookeeper总结

Zookeeper总结ZooKeeper数据模型中的每个znode都维护着一个 stat结构。一个stat仅提供一个znode的元数据。它由版本号，操作控制列表(ACL)，时间戳和数据长度组成。版本号每个znode都有版本号，这意味着每当与znode相关联的数据发生变化时，其对应的版本号也会增加。当多个zookeeper客户端尝试在同一znode上执行操作时，版本号的使用就很重要。操作控制列表(ACL)ACL基本上是访问znode的认证机制。它管理所有znode读取和写入操作。时间戳

2020-05-28 09:35:53 171

原创 K-最近邻总结

K-最近邻1-最近邻就是距离5.0最近的1个中，最多的是什么类别，5.0就是什么类别因为最近的1个是4.9 是正类所以1-最近邻是+类3-最近邻就是离5.0最近的3个中，最多的是什么类别，5.0就是什么类别因为最近的3个4.9，5.2，5.3 分别是+ - -类所以1-最近邻是-类所以这道题选A这里的距离有两种：欧氏距离曼哈顿距离总结理解了这道题，最近邻的基本思想就理解了。...

2020-05-28 09:22:35 555

原创 BP神经网络总结

非线性是由于激活函数产生的sigmoid是常见的激活函数，值域在[0,1]神经网络能够用于分类和回归能够利用反向传播减少误差进行自主学习

2020-05-28 08:55:54 543

原创 Spark Driver相关总结

Spark Driver相关总结Driver的作用：执行main方法把用户程序转化为task协调任务的调度Driver相关总结driver划分的task由executor执行一个spark作业运行时包括一个Driver进程，也是作业的主进程，具有main函数，并且有SparkContext实例，是程序的入口功能向集群申请资源负责作业的调度和解析生成Stage并调度Task到Executor上（包括DAGScheduler，TaskScheduler）...

2020-05-28 08:43:10 362

原创 Spark Shuffle相关总结

Shuffle产生Stage这里以shuffle为界限划分两个stagestage依据shuffle划分，reduce算子产生shuffle常见shuffle算子distinctgroupByKeyreduceByKeyaggregateByKeyjoincogrouprepartition

2020-05-28 08:31:48 225

转载 SparkSQL中 RDD、DataFrame、DataSet三者的区别与联系

RDDRDD：弹性分布式数据集；不可变、可分区、元素可以并行计算的集合。优点：RDD编译时类型安全：编译时能检查出类型错误；面向对象的编程风格：直接通过类名点的方式操作数据。缺点：序列化和反序列化的性能开销很大，大量的网络传输；构建对象占用了大量的heap堆内存，导致频繁的GC（程序进行GC时，所有任务都是暂停）DataFrameDataFrame以RDD为基础的分布式数据集。优点：DataFrame带有元数据schema，每一列都带有名称和类型。DataFrame引入了off-he

2020-05-26 09:32:19 1643

转载 Spark的两种核心shuffle是什么？

spark的Shuffle有Hash Shuffle和Sort Shuffle两种。在Spark 1.2以前，默认的shuffle计算引擎是HashShuffleManager。　　HashShuffleManager有着一个非常严重的弊端，就是会产生大量的中间磁盘文件，进而由大量的磁盘IO操作影响了性能。因此在Spark 1.2以后的版本中，默认的ShuffleManager改成了SortShuffleManager。　　SortShuffleManager相较于HashShuffleManager

2020-05-26 09:29:02 1233

转载 Spark 常见的transformation算子和action算子有哪些？

Spark 常见的transformation算子和action算子有哪些？transformation算子mapflatMapfiltergroupByKeyreduceByKeysortByKeyaction算子reducecollectfirsttakeaggregatecountByKeyforeachsaveAsTextFile

2020-05-26 09:23:02 1320

转载 Spark on yarn的job提交流程是怎样的？

YARN Client模式在YARN Client模式下，Driver在任务提交的本地机器上运行，Driver启动后会和ResourceManager通讯申请启动ApplicationMaster，随后ResourceManager分配container，在合适的NodeManager上启动ApplicationMaster，此时的ApplicationMaster的功能相当于一个ExecutorLaucher，只负责向ResourceManager申请Executor内存。ResourceManag

2020-05-26 09:19:05 477

转载 Spark提交Job核心参数有哪些？

Spark提交Job核心参数有哪些？executor-cores —— 每个executor使用的内核数，默认为1，官方建议2-5个，企业是4个num-executors —— 启动executors的数量，默认为2executor-memory —— executor内存大小，默认1Gdriver-cores —— driver使用内核数，默认为1driver-memory —— driver内存大小，默认512M例如:spark-submit \ --master local[5]

2020-05-25 22:08:20 338

转载 Spark有几种部署方式？

Spark支持3种集群管理器（Cluster Manager）Standalone：独立模式，Spark原生的简单集群管理器，自带完整的服务，可单独部署到一个集群中，无需依赖任何其他资源管理系统，使用Standalone可以很方便地搭建一个集群；Apache Mesos：一个强大的分布式资源管理框架，它允许多种不同的框架部署在其上，包括yarn；Hadoop YARN：统一的资源管理机制，在上面可以运行多套计算框架，如map reduce、storm等，根据driver在集群中的位置不同，分为yar

2020-05-25 21:51:53 1579

ExcelToSQL源码

2023-11-04

人类通用语言算法01：得到字符串字符的所有不重复组合

有一天，我想自己做人工智能。我首先想到的就是语言问题。也就是人工智能如何认知到这个世界的一切。我认为生命不过就是信息处理，所以，一种能够表达所有事物的组合性代表性的通用语言是很有用的。完成这个通用表示语言的第一步，就是根据一个事物，得到它的各种不同表达状态。这里以人类语言为例，输入一个字符串，可以得到字符串中所有字的组合我甚至不知道它属于什么算法，也许看了它之后会对你有所启发。（其实我特别想下载Jooner的源码，苦于没有c币，所以拿出一份独特的源码换几个c币，顺便请大家判断一下这个算法是属于什么类别的，前人是否已经做出类似算法，如果您知道类似的算法，请务必评论留言，不胜感激！）

2018-12-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人