自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

转载 Python爬虫原理

Python爬虫原理前言简单来说互联网是由一个个站点和网络设备组成的大网,我们通过浏览器访问站点,站点把HTML、JS、CSS代码返回给浏览器,这些代码经过浏览器解析、渲染,将丰富多彩的网页呈现我们眼前;一、爬虫是什么?如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物(数据)爬虫指的是...

2018-05-24 16:46:00 160

转载 Padas交叉表新增二级分类小计

Padas的pivot_table做交叉表变换后支持总计功能,但是分类的小计功能需要自己动手实现。在实现这个小计的功能时,好好研究了下交叉表的属性,写了下开发流程,当初走了点弯路,总结如下:下图是开发前手写的流程:按着这个流程开发到中途遇到点麻烦,又转而尝试了其它方式,因为我们的应用是把交叉表导出到html, 调用了to_html方法,所以,想直接在导出的html字符串上面插...

2018-01-24 10:37:00 264

转载 superset开启本地缓存filesystem

由于对接impala数据源,原本对接Oracle数据库速度还可以的,因为impala响应查询的性能大并发下的不稳定,故把原本关闭的缓存放开,先修改的配置信息如下。在superset目录下的全局配置文件config.py下面修改或新增:CHCHE_DIR目录是你自己定义的缓存文件存放路径,最好是在当前superset生成的目录下比如DATA_DIR = os.path.join(o...

2018-01-24 09:53:00 333

转载 Superset导出pivot_table到excel

最近工作上有个新需求就是按照交叉表在superset上显示的数据原样导出到Excel文档,目前最新版本的superset不支持导出交叉表格式的数据,任何导出的表都是基本的二维表格的csv,刚好最近在学习pandas这个工具。阅读文档可以看到导出提供的接口:Pivot_table接口如下:提供了to_excel接口可以导出支持二进制格式的xlsx文件:根据接口参数,很容...

2017-11-10 11:02:00 976

转载 Superset导出CSV文件中文或日文乱码

最近对接日本的数据源,视图页面显示正常,但是导出结果数据到CSV文件会出现乱码,经过查找原因是EXCEL表仅支持带BOM(Byte Order Mark)的表格式,否则出现乱码。As UTF-8 is an 8-bit encoding no BOM is required and anyU+FEFF character in the decoded Unicode string (...

2017-10-31 10:05:00 948

转载 Superset连接Impala数据源

公司最近在superset上面做二次开发,目前对接了mysql和oracle数据源,对这两个源的SQL操作查询做了完善和兼容。目前有新的需求就是要对接大数据部门的HBASE和HIVE数据源,由于superset原生支持impala,所以直接安装库测试。Superset是由Airbnb(知名在线房屋短租公司)开源的数据分析与可视化平台(曾用名Caravel、Panoramix),该工具...

2017-10-30 09:42:00 589

转载 Python实现网站注册验证码生成类

# -*- coding:utf-8 -*-'''Created on 2017年4月7日@author: Water'''import osimport randomimport stringimport sysimport mathfrom PIL import Image,ImageDraw,ImageFont,ImageFilter...

2017-06-08 10:55:00 138

转载 Linux下如何高效删除一个几十G的文本文件的最后一行或几行

当我们在服务器端记录日志或文本数据时,有时候会有需要删除一个大文件的最后几行,这时如何才能高效实现。上网浏览终于找到dd命令,亲测如下,删除一个32GB的日志文件最后100行仅需要4分钟[root@game1_10 tmp]# dd of=sqq_jobs_run.log.bak seek=1 bs=$(($(stat -c%s sqq_jobs_run.log.bak)-$(t...

2015-06-19 16:33:00 2212

转载 测试一个对象是否是类字符串

有时候需要测试一个对象,尤其是在写一个函数或则方法到时候,需要测试传入的参数是否是一个字符串(或这个对象是否类似于字符串的行为):下面的方式是利用内建的isinstance和basestring来简单快速的检查某个对象是否是字符串或Unicode对象的方法,如下:def isAString(anobj): return isinstance(anobj, bases...

2015-04-11 00:22:00 141

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除