自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

清平の居士馆

what we can do is keep moving

  • 博客(589)
  • 资源 (43)
  • 论坛 (6)
  • 收藏
  • 关注

原创 岁月悠悠,衰微只及肌肤;热忱抛却,颓废必致灵魂

都说程序员的人生充满波澜,人到中年就会有中年危机,或者说把中年失业当做自己的梦魇,那谁的人生又不是呢?几乎每个人都渴望永远青春,惧怕年老的到来。但年龄的增长不会催人老去,唯有在迷失理想之际,才会年老体衰。一、定位自己首先我们可以问问自己属于哪一种程序员,这里,我把程序员定义为以编程为生的人,因为不是每一个写代码的都是程序员。我认为世界上存在四类程序员:(计算机)科学家、码农、专家和工匠。1....

2020-04-10 13:29:48 743

原创 金融业大数据应用场景

如果能够引入外部数据,还可以进一步加快数据价值的变现。外部数据中比较好的有社交数据、电商交易数据、移动大数据、运营商数据、工商司法数据、公安数据、教育数据和银联交易数据等。大数据在金融行业的应用范围较广,典型的案例有花旗银行利用 IBM 沃森电脑为财富管理客户推荐产品,并预测未来计算机推荐理财的市场将超过银行专业理财师;摩根大通银行利用决策树技术,降低了不良贷款率,转化了提前还款客户,一年为摩根...

2020-04-07 17:05:48 2266

原创 Python十大优雅代码

本文精心筛选了最能展现 Python 语法之精妙的十个知识点,并附上详细的实例代码。如能在实战中融会贯通、灵活使用,必将使代码更为精炼、高效,同时也会极大提升代码B格,使之看上去更老练,读起来更优雅。1. for - else什么?不是 if 和 else 才是原配吗?No,你可能不知道,else 是个脚踩两只船的家伙,for 和 else 也是一对,而且是合法的。>>> ...

2019-12-07 11:35:17 535 1

原创 量化交易主流框架介绍

量化交易主流框架介绍talibtalib的简称是Technical Analysis Library,主要功能是计算行情数据的技术分析指标numpy介绍:一个用python实现的科学计算包。包括:1、一个强大的N维数组对象Array;2、比较成熟的(广播)函数库;3、用于整合C/C++和Fortran代码的工具包;4、实用的线性代数、傅里叶变换和随机数生成函数。numpy和稀疏矩阵运算包s...

2018-10-15 19:16:46 3299 6

原创 MySQL字符切割函数总结(4种类型)

一、从左开始截取字符串格式:left(str, length)说明:left(被截取字段,截取长度)select left('刀锋所划之地,便是疆土',6) as example结果:二、从右开始截取字符串格式:right(str, length)说明:right(被截取字段,截取长度)select right('刀锋所划之地,便是疆土',4) as example三、截取字符串格式一:substring(str, pos)格式二:substring(str, pos, len

2020-11-25 15:27:12 27

原创 强制关闭正在运行的MapReduce任务

获取任务id,然后通过命令关闭:hadoop job -listhadoop job -kill job_id新版本的hadoop可能要新的命令:yarn application -listyarn application -kill job_id

2020-11-23 14:55:27 5

原创 Presto简介2_安装部署

Presto是一个运行在多台服务器上的分布式系统。 完整安装包括一个coordinator和多个worker。 由客户端提交查询,从Presto命令行CLI提交到coordinator。 coordinator进行解析,分析并执行查询计划,然后分发处理队列到worker。一.下载安装包下载地址1:https://prestodb.io/download.html下载地址2:https://repo1.maven.org/maven2/com/facebook/presto/presto-server

2020-11-23 11:40:32 13

原创 distcp跨集群拷贝文件失败 Source and target differ in block-size. Use -pb to preserve block-sizes during copy

distcp命令是常用的大数据集群间的数据拷贝命令,有时候会因为不同集群间的block块大小不一致导致命令执行失败。报错如下 Source and target differ in block-size. Use -pb to preserve block-sizes during copy原因分析distcp默认拷贝文件时不记录原block大小导致在原文件block.size不是128M时校验失败,需要在distcp命令增加-pb参数。1.HDFS在写的时候有设置块大小,默认128M,某些组件

2020-11-23 10:12:43 7

原创 Kettle组件_获取系统信息

简介通过获取系统信息控件,我们可以获取系统的时间、转换或者作业的开始结束时间(用于增量)、主机信息、上一个作业完成情况和命令行参数等。通过类型的选择可以选择多种类型,这里我们选择命令行参数。数据准备这里以MySQL为例,当然也可以Excel本地输入-- ------------------------------ Table structure for saleorder-- ----------------------------DROP TABLE IF EXISTS `saleorder

2020-11-14 15:15:05 41

原创 Kettle组件_JavaScript代码

//注意 从上一个模块引用的变量在代码中要显示的进行getString()转换var bytes = Packages.org.apache.commons.codec.binary.Base64.decodeBase64( F1.getString().getBytes() );var decString = new Packages.java.lang.String( bytes );var encString = new Packages.java.lang.String( Packages.

2020-11-13 17:18:37 22

原创 Kettle组件_concat fields拼接数据

一、转换流程二、表输入1.mysql新建表结构2.表输入SQL三、Concat fields组件说明(1)Target Field Name:填写我们要新建的字段名称,自己随意起(2)Separator处:填写字段之间的拼接符号(3)在name、type、trim处,选择我们要拼接的字段、字段类型以及去空格的类型。(4)全部配置好之后点击确定。四、表输出选择输出的表和映射关系五、启动六、结果输出可以看到出现了新的字段,拼接起来了。...

2020-11-12 16:58:53 56

原创 sublime text 3设置中文

打开sublime,按快捷键 ctrl + shift + p=> 输入关键字"install" => install package,回车(刚点击之后并不会立刻有反应,需要稍等一会,然后就会弹出一个消息框,表示插件列表加载完成)=> 输入关键字"localiz" 或者“chinese”=> chineseLocalizations,回车搞定...

2020-11-11 17:10:19 44

原创 win10右击没有【始终使用此应用打开】选项的解决方法

通常我们习惯设置某种文件格式默认用哪种程序打开。例如我习惯用java文件默认用notepad++打开。有时候发现右击的时候这个默认选项无故消失了。解决方案:1.右键需要更换默认打开方式的文件,找到最下面的 “属性”选项2.进入“属性”,在“常规”这个 Tag 下面,找到“打开方式”,点击更改如果点击设置后未设置成功,先拖动文件到默认程序打开,在打开状态下,重复以上设置步骤,即可设置成功。...

2020-11-10 16:20:19 102

原创 Hive开窗函数(窗口函数)_四大类型实战案例

去年分别给大家整理了Oracle和HIve开窗函数的相关知识,文见Hive分析函数整理(开窗函数、窗口函数)今天再进一步整理窗口函数常用四大类型用法测试数据集-- 建表CREATE DATABASE IF NOT EXISTS TEST;CREATE TABLE TEST.COSTITEM( NAME STRING,ORDERDATE DATE,COST STRING);-- 数据加载INSERT INTO TEST.COSTITEM VALUES ('jack','2020-0

2020-11-10 13:47:10 65 2

原创 Hive SQL 计算引擎的切换

1、配置mapreduce计算引擎set hive.execution.engine=mr;2、配置spark计算引擎set hive.execution.engine=spark;3、配置tez 计算引擎set hive.execution.engine=tez;

2020-11-03 17:15:29 32

原创 Linux命令——后台运行(nohup 与 &)

Linux/Unix下,通常只有守护进程可在脱离终端的情况下能继续执行,而普通进程在关闭终端时会因收到SIGHUP信号(挂起信号)而退出。当终端退出后,由该终端启动的后台程序自动退出一、& 和 nohup1.让命令在后台运行:&功能和ctrl+z相同watch -n 10 sh test.sh & #每10s在后台执行一次test.sh脚本2.终端退出后程序不停止运行:nohupnohup(=no hang up),使命令忽略SIGHUP信号语法格式: noh

2020-10-30 10:56:14 26

原创 Airflow性能优化(airflow.cfg配置)

配置文件默认在$AIRFLOW_HOME目录下,vim airflow.cfg# dag存放目录dags_folder = /hadoop/airflow/dags# 日志存放目录base_log_folder = /hadoop/airflow/logs# 设置web端Configuration不显示配置信息expose_config = False#控制 Airflow worker 可以并行任务实例的数量parallelism=15# 单个DAG最大并发数# 默认是16,改

2020-10-20 11:10:41 70

原创 Airflow官方文档整理

Airflow官方文档整理一、快速开始# airflow needs a home, ~/airflow is the default,# but you can lay foundation somewhere else if you prefer# (optional)export AIRFLOW_HOME=~/airflow# install from pypi using pippip install apache-airflow# 初始化数据库airflow initdb

2020-10-17 11:34:53 48

原创 hive -e 重定向,带warn日志的处理方式

有时候执行会包含 WARN 开头的日志WARN: The method class org.apache.commons.logging.impl.SLF4JLogFactory#release() was invoked.WARN: Please see http://www.slf4j.org/codes.html#release for an explanation.方式一: grep -vhive -e "hive sql 语句 " | grep -v "WARN" > 输出文

2020-10-14 16:52:41 104

原创 Airflow控制任务并发数量

控制dag的并发数量,这里提供两种方式,一种是修改配置文件,一种是在创建dag的时候单独添加参数。下面针对这两种方式分别进行讲解

2020-10-12 11:12:24 138

原创 Airflow创建DAG和执行步骤

Airflow的dag文件都是用python脚本编写,总共可以分为5个步骤,本文会对这5个步骤进行详细说明。(全网唯一)

2020-09-28 15:03:12 148

原创 Kerberos安全认证部署和使用(HDP)

对于客户端而言,集群开启Kerberos之后,可以对可信任的客户端提供认证,使得可信任客户端能够正确提交作业,恶意用户无法伪装成其他用户侵入到集群当中,能够有效防止恶意冒充客户端提交作业的情况。对于服务端而言,集群开启Kerberos之后,集群中的服务都是可以信任的,集群服务之间使用密钥进行通信,避免了冒充服务的情况。开启Kerberos能够提升集群的安全性,但是也会提升用户使用集群的复杂度,提交作业的方式与没有开启Kerberos前会有一些区别,需要对作业进行改造,增加Kerberos认证的相关内容。

2020-09-22 17:17:05 116

原创 NiFi 1.9.2安装部署和使用(CentOS 7)

一、安装部署Linux中需要安装jdk,因为NiFi就是Java写的。二、NIFI启停三、web界面四、运行日志五、常见问题参考资料:官网地址:http://nifi.apache.org/文档:http://nifi.apache.org/docs.html

2020-09-19 15:55:28 298

原创 Maven配置

一、Maven的下载在Maven的官网即可下载,点击访问Apache Maven。下载后解压即可,解压后目录结构如下:二、参数配置在配置之前请将JDK安装好。1. 环境变量配置添加M2_HOME:对应Maven的解压目录即可。编辑Path环境变量:测试,在cmd窗口输入mvn -v查看显示如下即配置成功:2. 修改配置文件通常我们需要修改解压目录下conf/settings.xml文件,这样可以更好的适合我们的使用。此处注意:所有的修改一定要在注释标签外面,不然修改无效。

2020-09-11 16:26:35 30

原创 认识Maven

一、什么是Maven?如今我们构建一个项目需要用到很多第三方的类库,如写一个使用Spring的Web项目就需要引入大量的jar包。一个项目Jar包的数量之多往往让我们瞠目结舌,并且Jar包之间的关系错综复杂,一个Jar包往往又会引用其他Jar包,缺少任何一个Jar包都会导致项目编译失败。以往开发项目时,程序员往往需要花较多的精力在引用Jar包搭建项目环境上,而这一项工作尤为艰难,少一个Jar包、多一个Jar包往往会报一些让人摸不着头脑的异常。而Maven就是一款帮助程序员构建项目的工具,我们只需要告诉

2020-09-11 15:20:18 31

原创 Navicat 转移数据连接到新的计算机

Navicat是一套数据库管理工具,Navicat Premium 结合了其它Navicat成员的功能,支持单一程序同時连接到MySQL、MariaDB、SQL Server、SQLite、Oracle和PostgreSQL数据库。Navicat Premium可满足现今数据库管理系统的使用功能,包括存储过程、事件、触发器、函数、视图等。迁移Navicat到新的计算机的步骤:选择文件->导出连接。导出的文件(.ncx)包含了全部连接设置内容。备份已导出的文件(.ncx)。在Navi

2020-09-03 17:14:53 182

原创 Linux高级命令—— awk -F ‘:‘,以冒号为分隔符

用法awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,默认以空格为分隔符将每行切片,切开的部分再进行各种分析处理。 awk是行处理器,相比较屏幕处理的优点,在处理庞大文件时不会出现内存溢出或是处理缓慢的问题,通常用来格式化文本信息awk处理过程: 依次对每一行进行处理,然后输出格式:awk 参数 ' BEGIN{} // {action1;action2} ' END{} 文件名1.参数:-F

2020-08-03 19:40:03 602

原创 yarn web管理界面

原生Hadoop安装完Yarn后,可以在浏览器中通过http://master:8088来访问Yarn的WEB UI,HDP支持Ambari控制台访问。如下图:一、集群指标区域包含如下内容:Apps Submitted:提交的任务数目Apps Pending:挂起的任务数目Apps Running:运行的任务数目Apps Completed:完成的任务数目Containers Running:正在运行的container数目Memory/VCores used:使用了整体集群的内存/虚

2020-08-03 10:31:32 586 2

原创 Hadoop集群数仓迁移——distcp命令、分区修复

目前项目涉及需求:迁移Hadoop数仓(由CDH环境迁移到HDP环境),涉及到hive表的重建,以及hdfs上文件的迁移,以及元数据、分区表的修复。一、建表hive重建表比较简单,首先show create table tablename;然后把建表语句拷贝下来即可,这里要注意的是,特殊分割符和存储文件格式(默认textfile,项目中设计parquet格式),需要将分割语句和stored as XXX语句也加上。否则会导致hadoop集群的hive建表时的默认的存储格式不一致而报错这里我写了一个批量

2020-08-01 17:06:10 212

原创 批量生成hive建表语句

这里以shell为例echo "==========导出test库所有的表结构=========="hive -e "use test;show tables;" > /data/tables.txtecho "==========逐行遍历表信息========="cat tables.txt |while read eachlinedoecho "==========批量生成建表语句========="hive -e "use test;show create table $eac

2020-07-30 19:16:55 215

原创 Hive的msck repair修复分区

[MSCK REPAIR TABLE] 命令全量修复分区,目的就是将分区信息更新到元数据库中案例一:常用于手动复制目录到hive表的location下,此时Hive元数据中没有记录到该目录是hive的分区,所以查不到该分区数据。表test_tbl,存储路径为/user/hive/warehouse/test_tbl,分区字段为pt,正常添加分区是这样的:alter table add if not exist partition (pt='20190101');然后在hdfs中表的存储目录下会生

2020-07-29 18:30:18 245

原创 Hive静态分区和动态分区

主需要建立一个备份带分区的数据表,拷贝时若采用静态分区方式需要写N行语句,因此可以使用动态分区,节省大量时间。Hive的分区方式:由于Hive实际是存储在HDFS上的抽象,Hive的一个分区名对应一个目录名,子分区名就是子目录名,并不是一个实际字段。一)hive中支持两种类型的分区:静态分区SP(static partition)动态分区DP(dynamic partition)...

2020-07-29 18:21:37 119

原创 Hive数据加载方式(insert、load;普通表、分区表)

方式一:load data基础语法:load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student[partition ]参数说明:1 load data: 表示加载数据2 local: 表示从本地加载数据到 hive 表;否则从 HDFS 加载数据到 hive 表3 inpath: 表示加载数据的路径相对路径,例如:project/data1绝对路径,例如:/user/hive

2020-07-28 17:39:49 310 2

原创 DataX部署和使用方法

DataX 是阿里巴巴集团内被广泛使用的异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、MaxCompute(原ODPS)、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。框架设计DataX采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件,Reader从源数据库中读取数据转换成datax内部的数据格式,Writer从datax中把数据读出来并且转换成目的端的数据格式。Read

2020-07-27 11:37:24 370

原创 Python十个经典例子(排序、递归、设计模式、装饰器等)

一、实现查找功能的模块"""实现查找功能的模块"""def seq_search(items, elem): """顺序查找""" for index, item in enumerate(items): if item == elem: return index return -1def bin_search(items, elem): """折半查找(二分查找)""" start, end = 0, len(

2020-07-27 09:52:55 93

原创 REST API设计规范

这里整理的REST API的设计规范,注意和后端开发的API接口文档做一下区分,不是一个概念。API是REST API的超集,REST API 是API的子集;所有的REST API都是API,但不是所有的API都是REST API一、公共要求API通常使用HTTPs协议,确保交互数据的传输安全,域名尽量将api部署在专用域名下https://api.example.com,具体公共要求如下1.在URI中使用小写字母,不要采用驼峰命名。方便时,在URI路径中应始终首选小写字母。http://api

2020-07-24 17:06:30 67

原创 hive 空值、NULL判断和处理方式

首先需要明白一个问题,空值和NULL值不是等价的。首先看一个表结构的例子由此可见,hive中空值判断基本分两种1.NULL 与 \Nhive在底层数据中如何保存和标识NULL,是由 alter table name SET SERDEPROPERTIES('serialization.null.format' = '\N'); 参数控制的比如:1.设置 alter table name SET SERDEPROPERTIES('serialization.null.format' = '\N'

2020-07-21 17:36:31 707

原创 AI开源工具框架【2020年6月】

要说近两年来,开源项目里发展最活跃、成长最快的当属 AI 相关的。有 182 万 AI 应用开发者正在密切关注和使用开源框架,其中,老牌且应用广泛的 OpenCV 领先,新兴 TensorFlow 炙手可热。同时,包括百度 PaddlePaddle、腾讯 NCNN、旷视等的国产开源框架已经有了越来越多的开发者使用。...

2020-07-21 16:25:53 88

原创 敏捷开发(scrum)简介

敏捷开发(scrum)是一种软件开发的流程,强调快速反应、快速迭代、价值驱动。Scrum的英文意思是橄榄球运动的一个专业术语,表示“争球”的动作;运用该流程,你就能看到你团队高效的工作。一、四大价值观(特点)敏捷开发的特点就是下面4句话:「个体与交互」胜过「过程与工具」「可以工作的软件」胜过「面面俱到的文挡」「客户协作」胜过「合同谈判」「响应变化」胜过「遵循计划」说明:(1)敏捷开发(scrum)适用于竞争激烈,快速变化的市场。 敏捷的客户协作观念,快速迭代能帮助团队以最小成本,最快速

2020-07-21 09:48:51 78

原创 图片、音视频文件存储在MySQL的案例(blob格式和load_file函数)

注意:通常我们不要直接存储这种文件在数据库中,影响效率。这里只做演示参考文件《图片存储原理》1.本地创建文件这里我在本地上传了3个文件,分别是txt文本,jpg文件和MP4视频文件[root@mail test_file]# ls1.txt man.jpg man.mp4[root@mail test_file]# pwd/data/test_file2.建表CREATE TABLE `test_file` ( `id` int(11) DEFAULT NULL, `pi

2020-07-20 17:23:55 232

Airflow安装配置和web端插件安装

网络中关于airflow的资料比较少,这里做了一下整理: 1.整理centos7中airflow的安装配置 2.原生airflow默认不支持web端的拖拽实现dag,需要写python脚本,这里我做了一个插件安装说明,可以从网页端实现dag的编写

2020-07-01

数仓规范文档.rar

本文档整理数据仓库搭建过程中的分层结构和数据库、表名、字段命名规范,对数仓开发、大数据开发有重要帮助,欢迎下载。有问题随时博客留言或者私信我。

2020-05-30

navicat 连接oracle 11g驱动包

我的Navicat 版本是Navicat Premium 12 ,最近在windows环境中远程连接新项目的Oracle(11g版本)连接报错。我在之前项目中连接Oracle12是不报错的,也不需要做任何配置,直接选择basic或者TNS连接方式都可以顺利连接,刚开始也很恼火,查了资料后,加载这个驱动就行,最终解决,这里面还有连接hive和mysql的,大家也可以存一下

2020-05-28

陀螺仪调度部署和使用(美云智数).rar

整理美云智数调度工具部署和使用。美云智数,源自于财富世界500强企业美的集团信息科技,基于先进企业的业务实践,把管理实践软件产品化,为大中型企业提供智能制造、大数据、数字营销、移动办公、身份管理、财务与人力、IT咨询等领域的云产品与解决方案。

2020-05-14

azkaban安装包(web+excutor)

zkaban是一个Hadoop workflow定时调度工具,它解决了多个Hadoop任务单元之间的前后依赖关系。它提供了十分友好的用户界面,使用简单,容易上手。这里为大家提供azkaban2.5调度工具的全套安装包,具体安装步骤可以参考我的博客

2020-03-27

集群搭建手册_CDH5.13.1版.docx

整理企业级Hadoop_CDH集群的搭建步骤和常见问题解决方案,包括环境配置,安装步骤和使用方法,最后将搭建过程中的常见错误做了总结和解释

2020-03-11

TensorFlow.xmind

整理python机器学习常用算法,里面涵盖基础操作,案例解析和注意事项,包括knn算法、逻辑斯蒂回归、线性归回、岭回归、SVM支持向量机,TensorFlow等,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day10-决策树与贝叶斯.xmind

整理python机器学习常用算法,里面涵盖基础操作,案例解析和注意事项,包括knn算法、逻辑斯蒂回归、线性归回、岭回归、SVM支持向量机、决策树、贝叶斯等,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day9-LinearRegression线性回归与逻辑斯蒂回归.xmind

整理python机器学习常用算法,里面涵盖基础操作,案例解析和注意事项,包括knn算法、逻辑斯蒂回归、线性归回、岭回归、SVM支持向量机等,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day8-KNN.xmind

整理python机器学习常用算法,里面涵盖基础操作,案例解析和注意事项,包括knn算法、逻辑斯蒂回归、线性归回、岭回归、SVM支持向量机等,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day7-pandas-Ⅳ:数据加载与透视表.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day6-matplotlib.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day5-Scipy.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day4-pandas-Ⅲ.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day3-pandas-Ⅱ.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day2-pandas-Ⅰ.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day1-IPython与Numpy.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

115个Java面试题和答案——终极(下)_ (1).pdf

资料包含115道java常考面试题,共分为两个文档分为上下两册,内容来自北京著名iT培训机构,实战性强,欢迎下载!

2019-06-29

115个Java面试题和答案——终极(上).pdf

资料包含115道java常考面试题,共分为两个文档分为上下两册,内容来自北京著名iT培训机构,实战性强,欢迎下载!

2019-06-29

Navicat 绿色版().rar

nivicat for mysql 可以支持mysql,不用安装直接点击运行文件运行就可,里面有注册码,第一次运行时填写一下即可,其他的不需填写

2019-06-27

机器学习06--线性回归

回归的目的是预测数值型的⽬目标值。最直接的办法是依据输入写出一个目标值的计算公式

2018-11-08

机器学习05--朴素贝叶斯

朴素贝叶斯算法是有监督的学习算法,解决的是分类问题,如客户是否流失、是否值得投资、信用等级评定等多分类问题。

2018-11-08

机器学习09--决策树02

ID3算法的核心是在决策树各个结点上对应信息增益准则选择特征,递归地构建决策树。从根结点(root node)开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不不同取值建立子节点;再对子结点递归地调用以上方法,构建决策树;直到所有特征的信息增益均很小或没有特征可以选择为⽌止,最后得到一个决策树。

2018-11-08

机器学习03--决策树01

决策树(decision tree)是⼀一种基本的分类与回归方法。流程图就是⼀一个决策树,长方形代表判断模块(decision block),椭圆形成代表终⽌止模块 (terminating block),表示已经得出结论,可以终止运行行。从判断模块引出的左右箭头称作为分支(branch),它可以达到另一个判断模块或者终⽌止模块。

2018-11-08

机器学习03--sklearn手写数字识别

Scikit learn 也简称sklearn,是机器器学习领域的python模块,sklearn包含了了很多机器器学习的方式

2018-11-08

机器学习02--K近邻算法

k近邻法(k-nearest neighbor, k-NN)是1967年年由Cover T和Hart P提出的一种基本分类与回归方法。它的工作原理理是:存在一个样本数据集合,也称作为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据 后,将新的数据的每个特征与样本集中数据对应的特征进⾏行行⽐比较,然后算法提取样本最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。

2018-11-08

机器学习01--机器学习入门知识(数据科学 5 机器学习介绍)

何谓机器器学习就是把无序的数据转换成有⽤用的信息,海海量量数据抽取有价值的信息。创建并使用那些由学习数据⽽而得出的模型,预测建模或数据挖掘。用已存在的数据来开发可⽤用来对新数据预测多种可能结果的模型。第一个文档让大家对机器学习有个初步认识

2018-11-08

数据分析--matplotlib绘图和可视化

信息可视化(也叫绘图)是数据分析中最重要的工作之一。它可能是探索过程的一部分,例如,帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外,做一个可交互的数据可视化也许是工作的最终目标。matplotlib是一个用于创建出版质量量图表的桌⾯面绘图包(主要是2D方面)。

2018-11-08

MySQL性能优化之参数配置

mysql性能优化的配置过程,back_log值指出在MySQL暂时停⽌止回答新请求之前的短时间内多少个请求可以被存在堆栈中。也就是说,如果MySql的连接数据达到max_connections时,新来的请求将会被存在堆栈中,以等待某一连接释放资源,该堆栈的数量量即back_log,如果等待连接的数量量超过back_log,将不不被授予连接资源。

2018-11-08

机器学习面试题目1

python高级的知识点,包括当下的机器学习见面试题,这里做了3份,分别上传给大家,基本涉及到了相关要点,希望对大家有用

2018-10-18

python面试笔试题(现场应聘收集)

题目都是照片格式的,都是面试python的同事和朋友提供,我统一整理的,题目类型涉及多方面,因为是面试所以拍摄角度有的会有点偏差,有需要的可以下载希望对大家有用!

2018-10-18

笨办法学python

《笨办法学 Python》(Learn Python The Hard Way,简称 LPTHW)是 Zed Shaw 编写的一本Python 入门书籍。适合对计算机了解不多,没有学过编程,但对编程感兴趣的朋友学习使用。这本书以习题的方式引导读者一步一步学习编程,从简单的打印一直讲到完整项目的实现。也许读完这本书并不意味着你已经学会了编程,但至少你会对编程语言以及编程这个行业有一个初步的了解。

2018-10-18

大数据分析---数据规整:聚合和重塑

在许多应⽤用中,数据可能分散在许多文件或数据库中,存储的形式也不不利利于分析,应采用聚合、合并、重塑数据的⽅方法进⾏行行处理理。

2018-10-09

大数据分析--数据清洗和准备

在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理理、转换以及重塑。这些工作会占到分析师时间的80%或更更多。

2018-10-09

大数据分析--数据加载、存储

pandas提供了一些用于将表格型数据读取为DataFrame对象的函数,其中read_csv和read_table用得最多

2018-10-09

大数据分析---Pandas使用

pandas和Numpy还是有区别,这里主要包括两个主要数据结构:Series和DataFrame

2018-10-09

数据分析2--NumPy

由浅入深交给你如何用python实现大数据开发和人工智能

2018-09-25

数据分析1--认识大数据工具

数据分析是人工智能的必备知识,算法、数据结构都要很高的要求,这些文档由浅入深给大家提供数据分析的知识,总共10个文档,后续会陆续更新

2018-09-25

Diango从基础到高级

Django框架的基础回顾以及高级应用,共三个文档,上传了一个重要的,这里不能设置免费分数,另外两个下载的朋友免费邮箱发送不单独上传了

2018-09-19

Python面试题整理

整理的python面试题目,后续会继续整理BAT的面试100题,下载的朋友后续免费发送

2018-09-08

HDFS文件中的表名变成了大写,是什么原因?

发表于 2020-10-14 最后回复 2020-10-14

Airflow请教

发表于 2020-06-03 最后回复 2020-06-03

跳槽除了薪资生无可恋

发表于 2020-05-26 最后回复 2020-05-28

kettle连接数据库报错:java.lang.StackOverflowError

发表于 2020-05-19 最后回复 2020-05-19

不撸代码继续写诗―《归途》

发表于 2020-05-09 最后回复 2020-05-10

五一了,不撸代码写首诗怎么样

发表于 2020-05-04 最后回复 2020-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除