自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

frone的专栏

关注数据开发与算法应用

  • 博客(45)
  • 资源 (2)
  • 收藏
  • 关注

原创 python3比多线程和多进程还好的新模块 —— 协程Coroutine

文章目录引子前言协程基本概念理解生成器(generator)运行协程可等待对象协程任务Future 对象并发运行任务爬虫例子参考文章引子最近把所有系统的python3 版本都更新到了python3.7,然后更新了一下代码,发现这个版本改动还是很大的,之前更多还是在使用python2.7做ETL或者操作一些API,没想到python的变化如此之大,看来自己还是太落伍了。于是在知乎和官网上找资料学...

2019-04-12 12:16:27 453

原创 python3.8版本已经更新,数据分析师和数据开发者看过来

python3.8版本已经更新,数据分析师和数据开发者看过来新版本python3.8已经发布作为一个放弃java转投python很多年的数据开发者,已经好久没有更新python了,也很久没有关注python的一些新功能新特性了,去年把自己做的几个小项目更新到了python3.6,然后就一直没把精力放到这一块了。今天因为安装一个第三方库失败,打算去官网看下python的更新情况,发现已经更新至...

2020-04-07 23:54:27 1230 1

转载 为什么85%的大数据项目总是失败?

企业在推行大数据项目时往往把项目规模和范围做得很大,但是事实却是,很多大数据项目通常都会失败。2016年,Gartner估算约60%的大数据项目都会失败。一年后,Gartner分析师Nick Heudecker表示,这个数据“过于保守”,大数据项目失败率应接近85%。直至现在他也是这样认为的。并不只有Gartner这样认为。前微软高管Bob Muglia告诉分析网站Datanami,“我找不到...

2020-04-06 13:15:38 436

原创 数据可视化——向木东居士学习 第二期

【数据科学家学习小组】之数据可视化(第二期)第二周 学习总结本系列文章主要目的有两个:从数据可视化的角度出发,总结一下现在无论是数据可视化还是报表开发、BI开发的工具和思路从木东居士的学习小组学习到一些大厂的工作学习思路,让自己思考的更全面更成熟,完成的文档也更加全面、漂亮。学习内容「时序数据」和「比例数据」的可视化了解时序数据的特点,熟练掌握不同类型的时序数据分别适合的图表类型...

2019-11-21 15:56:54 286

原创 数据可视化——向木东居士学习 第一期

【数据科学家学习小组】之数据可视化(第一期)第一周 学习总结本系列文章主要目的有两个:从数据可视化的角度出发,总结一下现在无论是数据可视化还是报表开发、BI开发的工具和思路从木东居士的学习小组学习到一些大厂的工作学习思路,让自己思考的更全面更成熟,完成的文档也更加全面、漂亮。整体流程确定主题比如,银行分析不同城市用户的储蓄率、储蓄金额,电商平台进行双十一的实时交易情况的大屏直播,物...

2019-11-18 10:33:48 228

原创 python PriorityQueue模块 heapq模块

Python heapq模块heap APIheapq.heappush(heap, item) #把item添加到heap中(heap是一个列表)heapq.heappop(heap) #把堆顶元素弹出,返回的就是堆顶heapq.heappushpop(heap, item) #先把item加入到堆中,然后再pop,比heappush()再heappop()要快得多heapq.h...

2019-03-01 18:36:05 1637

原创 2018年度总结

前言当你老了,回顾一生,就会发觉:什么时候出国读书,什么时候决定做第一份职业、何时选定了对象而恋爱、什么时候结婚,其实都是命运的巨变。只是当时站在三岔路口,眼见风云千樯,你作出选择的那一日,在日记上,相当沉闷和平凡,当时还以为是生命中普通的一天。——陶杰 《杀鹌鹑的少女》在2019年到来的时候,看到了这么一句话,感触颇深,生命就死这么组成的,开始的时候我们太年轻,意识不到,就要依赖父母的...

2019-02-02 15:27:51 208

原创 阿里云maxcompute SQL代码编码原则与规范

文章目录编码原则SQL编码规范代码样例原文链接本文向您介绍SQL编码的基本原则和详细的编码规范。编码原则SQL代码的编码原则如下:代码功能完善,健壮。代码行清晰、整齐,具有一定的可观赏性。代码编写要充分考虑执行速度最优的原则。代码行整体层次分明、结构化强。代码中应有必要的注释以增强代码的可读性。规范要求非强制性约束代码开发人员的代码编写行为,在实际应用中在不违反常规要求的前提下...

2018-12-29 15:49:44 1678

原创 基于阿里云DATAWORKS整理数据模型概念

文章目录引子数据模型概念模型逻辑模型物理模型数据仓库数据模型设计顺序概念模型、逻辑模型和物理模型的区别参考资料引子年底这两个月阿里云的dataworks进行了全面升级,很多细节有了不小的变化,感觉结构更加清晰了。例如建表这个页面:现在可以在这里配置数据仓库表的层级,主题层级比较好理解,就是主题表的分类。而下边的物理层级应该就是指ODS,DM,DW这类分级,物理分类没有太理解,会在后边进行...

2018-12-28 13:17:45 2434

翻译 ubantu 安装redash

文章目录首先安装 nodejs和npm安装docker 并pull对应的镜像参考资料首先安装 nodejs和npm# Using Ubuntucurl -sL https://deb.nodesource.com/setup_11.x | sudo -E bash -sudo apt-get install -y nodejs# Using Debian, as rootcurl -...

2018-12-26 10:54:45 1300

原创 Mysql 数据引擎及常用DCL

文章目录MySQL各大存储引擎InnoDB:MyISAM存储引擎MEMORY存储引擎MySQL中的锁概念存储引擎总结常用DCL语句 (持续更新)最近在整理数据仓库相关的知识,虽然现在数据仓库产品已经很普遍了,但是mysql使用的还是非常频繁,在此整理一下msyql 存储引擎相关的知识,还有一些常用的DCL语句。MySQL各大存储引擎show engines;InnoDB:InnoDB是...

2018-12-19 15:16:10 252

原创 使用 flask_restful 来开发API

文章目录需求什么叫restful代码参考资料需求在双十一买了阿里云云小蜜的培训课程,花了几天学了一下,不过考了两次都没有考过,但是能够熟练使用云小蜜来搭建业务了,为了整合一些外部数据,例如天气,交通,电影啥的,需要封装处理一下第三方API或者调用自己的数据库。最后的需求就是变成RESTFUL API了,可以把这个请求地址直接放到云小蜜里边。什么叫restfulREST的名称"表现层状态转化...

2018-12-14 15:01:25 480

转载 CentOS 7 sytemctl 配置及相关命令

文章目录systemctl简介查看后台服务开机服务管理示例-自定义 mongodb 开机启动systemctl 配置命令参考资料systemctl简介CentOS 7继承了RHEL 7的新的特性,例如强大的systemctl,而systemctl的使用也使得系统服务的/etc/init.d的启动脚本的方式发生重大改变,也大幅提高了系统服务的运行效率。但服务的配置和以往也发生了极大的不同,变的简...

2018-11-28 14:36:35 686

原创 airflow 启动及简单配置

启动配置设置airflow home目录: export AIRFLOW_HOME=/home/suoper/airflow/export AIRFLOW_HOME=/home/suoper/airflow/以python3.5 环境运行:airflow webserver -D启动scheduler调度器:airflow scheduler -D日志配置vi airflow.cf...

2018-11-23 15:37:51 5980 2

原创 元数据及数据仓库相关概念

文章目录元数据(metadata)的概念Data about Data定义技术元数据业务元数据总结数据仓库ODS简单的理解为 Operational Data Store, 运营数据仓储 数据整合层(也叫做数据缓冲层)EDW简单理解为 Enterprise Data Warehouse, 企业数据仓库ODS与EDW之间的差异使用角色数据来源数据获取性能和及时性数据架构数据共享能力数据系统提供应用数...

2018-09-28 11:48:53 2861

原创 airflow 运行周期设置 schedule_interval

airflow 运行周期问题最近开始正式使用airflow,关于 schedule_interval 和页面上显示的 last run一直有些不太清楚的地方,而在设置一个每周运行的任务时终于遇到了问题,任务并没有能够如期运行。一系列google之后发现 airflow的 schedule_interval虽然可以使用cron表达式,但是还是和crontab有一些区别的。关于 backf...

2018-09-12 12:04:53 24069 8

原创 delorean使用教程

首先,确定几个概念。navie datetime:没有指定时区的datetime对象localized datetime:指定时区的datetime对象localizing:指定市区的的navie datetimenormalizing:datetime时区切换一些例子首先,导入Delorean,然后使用UTC格式的当前时间创建一个datetime>>&g...

2018-09-06 17:14:38 543

原创 airflow EmailOperator 发送邮件 附件文件名丢失或乱码问题

开始使用airflow使用 EmailOperator 模块发送邮件修改源代码处理文件名问题查看源代码追踪问题,EmailOperator使用了 from airflow.utils.email import send_email,通过email这个类完成邮件的最终发送,所以讲问题定位到了这里。 第84行part['Content-Disposition'] = 'att...

2018-08-30 11:46:25 2634 1

转载 浅谈工作流调度系统

转自http://ju.outofmemory.cn/entry/221885每个公司都有自己的一套或者多套调度系统,从简单到复杂,满足各种定制化的需求。Crontab任务调度在没有工作流调度系统之前,公司里面的任务都是通过crontab来定义的,时间长了后会发现很多问题:大量的crontab任务需要管理任务没有按时执行,各种原因失败,需要重试多服务器环境下,crontab...

2018-08-30 11:11:07 2097

转载 Python代码规范和命名规范

Python代码规范和命名规范前言Python 学习之旅,先来看看 Python 的代码规范,让自己先有个意识,而且在往后的学习中慢慢养成习惯目录一、简明概述1、编码如无特殊情况, 文件一律使用 UTF-8 编码如无特殊情况, 文件头部必须加入#-*-coding:utf...

2018-08-17 10:59:00 154

原创 集合分区问题

本文根据PuLP文档翻译而来,原文请参考 https://pythonhosted.org/PuLP/CaseStudies/a_set_partitioning_problem.html集合分区问题集合分区问题确定如何将一个集合(S)中的项目划分为更小的子集。S中的所有项目必须包含在一个且仅包含一个分区中。相关问题是:集合分包- 所有项目必须包含在零个或一个分区中...

2018-08-06 13:08:47 1535

原创 PulP线性优化(三)python编码

本文根据PuLP文档翻译而来,原文请参考 https://pythonhosted.org/PuLP/main/basic_python_coding.html基本的Python编码在本课程中,您将学习Python中的基本编程,但也可以在Internet上免费获得优秀的Python语言参考资料。您可以下载Dive Into Python这本书, 或者 在Python网...

2018-08-04 18:52:09 1599

原创 PulP线性优化(二)优化概念

本文根据PuLP文档翻译而来,原文请参考 https://pythonhosted.org/PuLP/main/optimisation_concepts.html线性编程最简单的数学程序类型是线性程序。要使您的数学程序成为线性程序,您需要满足以下条件:决策变量必须是实变量;目标必须是线性表达;约束必须是线性表达式。线性表达式是以下形式的表达式a1x1+a2x...

2018-08-03 16:35:07 719

原创 PulP线性优化(一)优化过程

*本文根据PuLP文档翻译而来,原文请参考 https://pythonhosted.org/PuLP/main/the_optimisation_process.html#getting-the-problem-description*优化过程解决优化问题不是一个线性过程,但过程可分为五个一般步骤:获得问题描述 制定数学公式处理数学公式执行一些后优化分析介绍解决方案和...

2018-08-03 16:10:41 2348

原创 pip使用国内源

安装 Pulp 等包时遇到问题在安装一个不是很常用的python库时 遇到了长时间无法下载安装的问题,之前也有配置过国内的pip 源所以在这整理下直接修改国内源为默认创建或修改配置文件linux的文件在~/.pip/pip.conf,windows在%HOMEPATH%\pip\pip.ini)[global]index-url = http://pypi.dou...

2018-07-27 11:51:59 939

原创 如何在hexo中支持Mathjax

最近在整理HEXO搭建博客的一些问题,让hexo能够支持LaTeX是很重要的一个环节,这样就能够完美的展示数学公式。下面就是一些细节第一步: 使用Kramed代替 Markedhexo 默认的渲染引擎是 marked,但是 marked 不支持 mathjax。 kramed 是在 marked 的基础上进行修改。我们在工程目录下执行以下命令来安装 kramed.npm unins...

2018-07-23 16:58:50 825 6

原创 The Jaro–Winkler distance 计算短文本相似度

关于编辑距离算法简介算法定义例子python 运行关于编辑距离此前计算短文本的相似度更多使用的是编辑距离(Levenshtein距离),但是编辑距离更适合计算纯文本的差异,不考虑文本的顺序和含义,所以在相似文本较多,或者我们希望得到的相似文本更符合人的理解时,编辑距离给出的答案就不是那么理想了。算法简介The Jaro–Winkler dista...

2018-04-25 16:12:25 6360 1

原创 python 输出JSON类型数据时遇到的编码问题(utf8,unicode)

json.dump 造成的编码问题

2017-11-29 14:38:04 4907

原创 CDH 安装 sqoop

CDH 安装 sqoop

2017-10-27 15:55:56 3663

原创 cloudera mamager中配置hive加载第三方JAR

cloudera 永久加载第三方JAR

2017-09-27 11:25:06 2369

原创 sklearn 0.17 版本 方法过时问题

sklearn 方法过时 MultiLabelBinarizer

2017-06-28 17:52:04 1982

原创 Django模板中的HTML自动转义

在使用Django的时候遇到了一个HTML字符转义的问题, 我需要在view层中将变量改成下面的值,但是发现会在HTML中显示的时候进行自动转义,针对< > / ; 等特殊符号。'<b><font color="red">是</font></b>'Google之发现只需要在html中做如下操作{% for i in y %} <td align="center">{{ i|safe }}<

2015-05-22 18:18:53 725

原创 DJANGO 1.8模版配置

在使用django1.8的时候,配置模版遇到了个不小的问题,按照默认设置配置模版和views后一直报错,找不到模版,搜索了很多相关信息后终于找到了解决方案。去掉settings.py中的TEMPLATE_DIRS = ( os.path.join(BASE_DIR, 'templates'),)添加TEMPLATES = [ { 'BACKEND

2015-05-20 18:13:13 1130

原创 python3 中的 map,reduce,filter函数

在python2 中直接打印map,filter函数会直接输出结果。但在python3中做了些修改,输出前需要使用list()进行显示转换,而reduce函数则被放到了functools包中,代码如下from functools import reduceimport mathdef format_name(s): return s.upper()def is_odd(x): re

2015-05-07 14:53:14 2973

原创 解决IDE编写JAVA读取文件的路径问题

在Eclipse环境下编写代码读取文件是常使用System.getProperty("user.dir"); 或者项目路径来寻找文件,但是当把java项目生成jar时常常会找不到文件,这是因为文件是在jar文件中,并不能通过路径来找到原有文件了,需要做如下处理:InputStream is = DBUtils.class .getResourceAsStream("/dao/

2015-05-06 13:31:28 1319

转载 Python命名规范

Python命名规范目录Python命名规范目录常量变量函数模块类包常量:常量名所有字母大写,由下划线连接各个单词,如 WHITE = 0XFFFFFF THIS_IS_A_CONSTANT = 1变量:普通变量: 全部小写,由下划线连接各个单词,如: color = WHITE this_is_a_variable = 1保护成员变量 (protected in jav

2015-03-19 12:55:24 624

转载 DML DDL DML命令的区别

总体解释:DML(data manipulation language):       它们是SELECT、UPDATE、INSERT、DELETE,就象它的名字一样,这4条命令是用来对数据库里的数据进行操作的语言DDL(data definition language):       DDL比DML要多,主要的命令有CREATE、ALTER、DROP等,DDL主要是用在定

2010-05-27 21:15:00 6828 2

转载 JAVA开发者最常去的20个英文网站

 JAVA开发者最常去的20个英文网站1.[http://www.javaalmanac.com] – Java开发者年鉴一书的在线版本. 要想快速查到某种Java技巧的用法及示例代码, 这是一个不错的去处.2.[http://www.onjava.com] – O’Reilly的Java网站. 每周都有新文章.3.[http://java.sun.com] – 官方的Java开发者网

2010-02-13 00:00:00 506

原创 详解Struts2的properties配置文件

指定加载struts2配置文件管理器,默认为org.apache.struts2.config.DefaultConfiguration。开发者可以自定义配置文件管理器,该类要实现Configuration接口,可以自动加载struts2配置文件。  struts.configuration=org.apache.struts2.config.DefaultConfiguration  设

2009-12-21 12:17:00 562

转载 struts2.0 struts.xml和STRUTS的config.xml详解

DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.0//EN" "http://struts.apache.org/dtds/struts-2.0.dtd" >struts>     include节点是struts2中组件化的方式 可以将每个功能模块独立到一个xml配置文件中 然后用i

2009-12-21 11:57:00 1748

简单AJAX jquery实现

非常简单的程序,用intellij写的,由于本人不是很熟悉jquery,传上来以备不时之需

2010-03-09

jquery1.2库 中文API demo CSS 手册打包

资深开发者收集的相关资料,绝对物超所值,欢迎来本博交流切磋

2010-03-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除