2020年06月_大数据流浪法师

12月 11月 07月 06月 05月 04月 03月 01月

转载 OozieCDH 安装

文章目录第一步：修改core-site.xml第二步：上传oozie的安装包并解压第三步：解压hadooplibs到与oozie平行的目录第四步：创建libext目录第五步：拷贝依赖包到libext第六步：添加ext-2.2.zip压缩包第七步：修改oozie-site.xml第八步：创建mysql数据库第十步：创建oozie的数据库表第十一步：打包项目，生成war包第十二步：配置oozie的环境变量第十三步：启动与关闭oozie服务第十四步：浏览器页面访问oozie第一步：修改core-site.xml

2020-06-22 18:20:34 402

转载 Python 导入多个包时更漂亮的代码

本来是这样的：都挤在一行里了，浏览代码时看着不方便from sqlalchemy import create_engine,Integer,String,Column,Float,Boolean,DECIMAL,DateTime,DATE,Time,Text,Enum化妆后：from sqlalchemy import ( create_engine, Integer, String, Column, Float, Boolean, DECIM

2020-06-18 17:22:22 1117

原创 Python SQLAlchemy 简单的CRUD

大家好，我是练习时长两年半的大数据练习生，喜欢数学，AI，大数据。写博客是为了总结，分享，自娱自乐。希望写出的东西会对自己，对别人都有价值！废话不多说，现在是个终身学习的时代，开始学习了！奥力给！干了兄弟们！是时候展现真正的技术了：????????????????????????准备工作昨天写了SQLAlchemy用ORM描述表关系，今天就总结一下Alchemy的CRUD操作。CRUD就是增删改查。今天了解到MySQLdb一般是py2.x版本使用的老东西了，现在人们都用pymysql了。还

2020-06-18 16:59:46 1042

原创 Faker 新版本Faker类的用法

大家好，我是练习时长两年半的大数据练习生，喜欢数学，AI，大数据。写博客是为了总结，分享，自娱自乐。希望写出的东西会对自己，对别人都有价值！废话不多说，现在是个终身学习的时代，开始学习了！奥力给！干了兄弟们！是时候展现真正的技术了：????????????????????????本文是一篇学习笔记，外加百度上搜刮来的知识，外加自己总结的知识：原文链接：https://faker.readthedocs.io/en/master/fakerclass.html#proxy-class-implem

2020-06-18 10:01:52 1278

原创 Python Faker 入门大纲总结，建立对Faker的第一印象

大家好，我是练习时长两年半的大数据练习生，喜欢数学，AI，大数据。写博客是为了总结，分享，自娱自乐。希望写出的东西会对自己，对别人都有价值！废话不多说，现在是个终身学习的时代，开始学习了！奥力给！干了兄弟们！是时候展现真正的技术了：????????????????????????

2020-06-16 10:14:35 1128

原创 Python SQLAlchemy 表的ORM描述

准备工作先给你的python安装以下包sqlalchemypython-mysqldbORMORM全称 Object Relational Mapping 对象关系映射ORM 将数据库中的表与面向对象语言中的类建立了一种对应关系。这样操作数据库或者数据库中的表或者表中的一条记录就可以直接通过操作类或者类的实例来完成。SQLAlchemySQLAlchemy是一个常用的ORM工具...

2020-06-14 00:08:50 454

翻译 Python SQLAlchemy Alembic的使用

大家好，我是练习时长两年半的大数据练习生，喜欢数学，AI，大数据。写博客是为了总结，分享，自娱自乐。希望写出的东西会对自己，对别人都有价值！废话不多说，现在是个终身学习的时代，开始学习了！奥力给！干了兄弟们！是时候展现真正的技术了：????????????????????????本文是一篇翻译型学习笔记，原文如下链接。https://www.pythoncentral.io/migrate-sqlalchemy-databases-alembic/AlembicAlembic is a li

2020-06-13 15:05:09 920

原创 Python 类的基础用法

文章目录类定义`__init__()`方法类的方法类定义语法格式如下，注意缩进：class ClassName: 语句1 语句2 ... ... 语句N举个例子class Apple: """这是一个苹果""" price = 5 def fun(self): return 'hello world,this is an apple'实例化类x = Apple()访问类的属性和方法print("Apple

2020-06-13 14:56:54 475

转载 Git + Gitee码云 + IDEA使用笔记

> 大家好，我是练习时长两年半的大数据练习生，喜欢数学，AI，大数据。> 写博客是为了`总结，分享，自娱自乐`。希望写出的东西会`对自己，对别人都有价值！`> ==废话不多说，现在是个终身学习的时代，开始学习了！奥力给！干了兄弟们！==> 是时候展现真正的技术了：????????????????????????...

2020-06-10 08:39:57 425

原创还不知道SparkSQL中left semi join操作与left join操作的区别？进来一看便知！

leftJoin类似于SQL中的左外关联left outer join，返回结果以第一个RDD为主，关联不上的记录为空。部分场景下可以使用left semi join替代left join：因为 left semi join 是 in(keySet) 的关系，遇到右表重复记录，左表会跳过,性能更高，而 left join 则会一直遍历。但是left semi join 中最后 select 的结果中只许出现左表中的列名，因为右表只有 join key 参与关联计算了。...

2020-06-09 07:59:39 3613

原创 Oozie 概念

Oozie 概念Oozie是运行在hadoop平台上的一种工作流调度引擎，它可以用来调度与管理hadoop任务，如，MapReduce、Pig等。oozie的组件介绍workFlow：工作流，定义工作流任务的执行，主要由一个个的action组成，每个action都是一个任务，在xml中进行配置即可Coordinator ：协作器，可以理解为工作流的协调器，可以将多个工作流协调成一个工作流来进行处理。也是oozie当中的定时任务调度的模块,Bundle ：捆，束。多个Coordinator 的抽象

2020-06-08 10:43:56 299

原创 [BUG记录]idea创建子MAVEN模块再remove再delete，再次创建同名子MAVEN模块就会丢失资源文件夹和造成pom文件失效

1，先在项目下创建一个MAVEN模块2，3，命名为good00014,可以看到这里是正常的，另外pom文件也可以正常导包5，接下来remove并delete这个子模块6，按照上面的步骤创建一个同名的子模块可以发现，没有自动标记工作文件夹，并且这时候的pom里写啥东西都没用了。idea会显示import过程，但是这个模块里无法使用pom文件里导入的包了。目前还没有找到解决办法，如果有谁知道怎么解决的可以下方评论，谢谢了！所以创建子模块要谨慎！！！...

2020-06-07 21:12:09 1119 3

原创 HBase 用Spark导入MySQL数据到HBase

用Spark导入MySQL数据到HBase企业中大规模数据存储于HBase背景：项目中有需求，要频繁地、快速地向一个表中初始化数据。因此如何加载数据，如何提高速度是需要解决的问题。一般来说，作为数据存储系统会分为检索和存储两部分。检索是对外暴露数据查询接口。存储一是要实现数据按固定规则存储到存储介质中（如磁盘、内存等），另一方面还需要向外暴露批量装载的工具。如DB2的 db2load 工具，在关闭掉日志的前提下，写入速度能有显著提高。HBase数据库提供批量导入数据到表功能：1、Hbase

2020-06-01 16:04:48 749

原创 HBase 用MapReduce导入MySQL中的数据到HBase

用MapReduce导入MySQL中的数据到HBase将MySQL表的数据先导入到HDFS文件中（比如TSV格式），编写MapReduce将文本文件数据转换为HFile文件，加载到HBase表中。第一步、用Sqoop在Hive中创建表/export/servers/sqoop/bin/sqoop create-hive-table \--connect jdbc:mysql://bd001:3306/tags_dat2 \--table tbl_logs \--username root \

2020-06-01 15:41:49 553

原创 HBase ImportTSV

TSV文件与CSV文件的区别TSV是Tab-separatedvalues的缩写,即制表符分隔值。相对来说CSV,Comma-separatedvalues(逗号分隔值)更常见一些。ImportTSV功能描述：ImportTSV可以将tsv（也可以是csv，每行数据中各个字段使用分隔符分割）格式文本数据，加载到HBase表中。采用Put方式加载导入采用BulkLoad方式批量加载导入ImportTSV这个功能藏在HBase自带的工具类jar包里。使用如下命令，查看HBase官方自带工具类

2020-06-01 15:05:06 1769

原创 Sqoop 从MySQL导入数据到HBase的命令参考

使用SQOOP将MySQL表的数据导入到HBase表中，指定表的名称、列簇及RowKey范例如下所示：/export/servers/sqoop/bin/sqoop import \-D sqoop.hbase.add.row.key=true \--connect jdbc:mysql://bd001:3306/tags_dat2 \--username root \--password 123456 \--table tbl_users \--hbase-create-table \-

2020-06-01 14:44:25 1244

ExcelToSQL源码

2023-11-04

人类通用语言算法01：得到字符串字符的所有不重复组合

有一天，我想自己做人工智能。我首先想到的就是语言问题。也就是人工智能如何认知到这个世界的一切。我认为生命不过就是信息处理，所以，一种能够表达所有事物的组合性代表性的通用语言是很有用的。完成这个通用表示语言的第一步，就是根据一个事物，得到它的各种不同表达状态。这里以人类语言为例，输入一个字符串，可以得到字符串中所有字的组合我甚至不知道它属于什么算法，也许看了它之后会对你有所启发。（其实我特别想下载Jooner的源码，苦于没有c币，所以拿出一份独特的源码换几个c币，顺便请大家判断一下这个算法是属于什么类别的，前人是否已经做出类似算法，如果您知道类似的算法，请务必评论留言，不胜感激！）

2018-12-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人