- 博客(4)
- 资源 (9)
- 收藏
- 关注
原创 Hbase存储详解
Hbase存储详解一、概述 Hbase是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。 它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。 与hadoop一样,Hbase目标主要依靠横向扩展,...
2018-12-22 16:47:53 2253
原创 python爬取淘宝商品信息
本文实现了用python爬取淘宝信息的功能,主要涉及访问网页、正则匹配、json格式化等技术。# -*- coding: utf-8 -*import requests# import bs4import reimport jsondef open(keywords, page): headers = { "User-Agent": "Mozilla/...
2018-12-22 14:21:46 1445
转载 Apache 流框架 Flink,Spark Streaming,Storm对比分析
1.Flink架构及特性分析Flink是个相当早的项目,开始于2008年,但只在最近才得到注意。Flink是原生的流处理系统,提供high level的API。Flink也提供 API来像Spark一样进行批处理,但两者处理的基础是完全不同的。Flink把批处理当作流处理中的一种特殊情况。在Flink中,所有 的数据都看作流,是一种很好的抽象,因为这更接近于现实世界。 1.1 基本架构...
2018-12-06 12:13:02 511
原创 Python Excel 导出 + 发送邮件
一、依赖模块1.excel导出依赖xlwt或者xlsxwriterxlwt只能支持65535行,较大数据量可以选用xlsxwriter;python 字符默认是ascii编码,导出时转化为udf-8格式2.发送邮件依赖smtplib发送附件时,必须用starttls(),保证安全性 二、代码# -*- coding: UTF-8 -*-import sysi...
2018-12-03 20:44:31 2794
proxifier for Mac(含注册码、使用图解)
2019-01-15
Oracle_OCP_11G_题库-中文版
2016-02-26
Visual_C++MFC入门教程
2013-11-01
Matlab语言、数字图象基本操作
2013-10-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人