自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据技术派

代码改变世界,代码改变命运! | 微信搜索:大数据技术派

  • 博客(26)
  • 资源 (5)
  • 问答 (1)
  • 收藏
  • 关注

原创 R语言安装一些包的一些常见问题及经验之谈的解决办法

R语言解释器自带有一些系统包,对于大多数人来说够用了,但是这些基础包通常不能满足我们的需要,这时候就需要从互联网下载一些第三方或者官方包以满足我们的需要。不光是R语言,包...

2019-03-29 22:08:32 19859

原创 Python之循环结构——实战计算自然底数e,圆周率Π

循环结构是编程中经常使用的语法,循环结构的巧妙使用对编程来说很重要。刚才群里还有同学说自己不会用循环,其实很简单,只是没有用过才觉得难。这里介绍Python循环语法的用法...

2019-03-28 22:01:29 5662

原创 Python系列之——基本数据类型用法就该这么讲!!!

与C/C++/Java这些需要编译型的语言不一样,Python写好命令直接就可以运行,命令行运行也称交互式变成,通常用于调试,也可以写脚本实现复杂功能。前面已经,介绍过了...

2019-03-27 21:03:02 347

转载 R语言必看(入门常识及风格指导)

原文链接:https://wklchris.github.io/R-learning-basic.html#%E9%A3%8E%E6%A0%BC%E6%8C%87%E5%...

2019-03-22 20:43:14 2003

原创 使用scala编写flink消费kafka实时计算pv,uv

实时统计pv、uv是再常见不过的大数据统计需求了,前面出过一篇SparkStreaming实时统计pv,uv的案例,这里用flink实时计算pv,uv。我们需要统计不同数据类型每天的pv,uv情况,并且有如下要求.每秒钟要输出最新的统计结果程序永远跑着不会停,所以要定期清理内存里的过时数据收到的消息里的时间字段并不是按照顺序严格递增的,所以要有一定的容错机制访问uv并不一定每秒钟都会变...

2019-03-21 22:16:37 9920 7

原创 想画出你家乡地图吗,来来来!

看到各种各样漂亮的地图有没有很羡慕,那么这些地图究竟是怎么画出来的呢,这里主要介绍两个画地图的R包。一、leafletCN1、包的下载与安装下载:...

2019-03-19 21:07:51 1228

转载 R语言(数据读写操作)

原文链接:https://wklchris.github.io/R-read-data.html本节介绍一些实用的数据处理函数(如行、列合并),以及如何从各种数据源读、写...

2019-03-18 21:45:39 4226

转载 R语言(数据结构)——学习一门语言的根基

原文链接:https://wklchris.github.io/R-data-structure.html本节介绍 R 的数据类型,包括 data.frame 相关的重要...

2019-03-16 19:54:03 498

原创 maprecue将两类ip分类去重并且输出到不同目录文件中

有一份含有两类ip的数据,根据一个字段标记来区分,现在需要将去重,两类Ip分类保存到不同文件中,第三类数据舍弃。mapreduce程序如下:pom文件<?xml version="1.0" encoding="UTF-8&amp

2019-03-15 23:59:11 593

转载 hexo | 不用写代码,2小时快速搭建个人博客

很多人都想拥有自己的个人博客,还得看起来漂亮、酷酷的。不装下逼,可能都觉得自己这辈子白活了,这里介绍一个装逼神器。本人前面忙活了几个晚上,终于弄好了,这里简单分享给大家。...

2019-03-14 21:19:52 439

原创 redis 删除大key集合的方法

redis大key,这里指的是大的集合数据类型,如(set/hash/list/sorted set),一个key包含很多元素。由于redis是单线程,在删除大key(千万级别的set集合)的时候,或者清理过期大key数据时,主线程忙于删除这个大key,会导致redis阻塞、崩溃,应用程序异常的情况。一个例子线上redis作为实时去重的一个工具,里面有6千万的用户guid,这么一个set集...

2019-03-14 20:29:12 9798

转载 Python科学计算:matplotlib

原文链接:https://wklchris.github.io/Py3-matplotlib.html本文介绍 matplotlib 相关的内容,以例子为主。全文的初始化加载如下:import osimport numpy as npimport pandas as pdimport matplotlib as mplfrom matplotlib import pyplot...

2019-03-13 20:46:03 1631

转载 Python语法速查

原文链接:https://wklchris.github.io/Py3-basic.html本文简要记录了 Python 3 的语法。介绍Python 是一门独特的语言,快速浏览一下他的要点:面向对象:每一个变量都是一个类,有其自己的属性(attribute)与方法(method)。 语法块:用缩进(四个空格)而不是分号、花括号等符号来标记。因此,行首的空格不能随意书写。 注释...

2019-03-13 20:42:45 1479

转载 R语言(常用函数与数据管理)

原文链接:https://wklchris.github.io/R-manage-data.html本节内容可应用在数据读取之后。包括基本的运算(包括统计函数)、数据重整...

2019-03-13 20:02:37 1833

翻译 kafka消息顺序与重复

kafka消息顺序我们知道,kafka是一个高性能、分布式容错的消息发布-订阅系统,现在kafka也能处理流数据了。多个生产者在往kafka发送数据的时候,消息的顺序是不能保障的,也就是无序的。有些场景,比如在用maxwell解析mysql的binlog日志的时候,发送到kafka,后面解析,通常会用jdbc的方式,将数据保存到其它系统,比如hive或者hbase等。这时候,消息的顺序是很...

2019-03-12 21:57:59 6820

转载 R语言(ggplot2绘图)

原文链接:https://wklchris.github.io/R-ggplot2.htmlggplot2 的语法与 R 原生的语法并不统一,但是熟悉起来也并不复杂。它主...

2019-03-12 21:08:55 7675

原创 Spark-Submit 常用参数用法

一个Spark任务好不容易开发完成了,终于要上集群跑了,就差万里长征的最后一步了:通过Spark-Submit命令上集群运行,这时候需要做哪些常规与优化工作呢。这里贴一个常用的SparkSubmit提交脚本脚本名称:submitHelperLabel.sh脚本内容:spark-submit \--master yarn \--name helper-label-count \...

2019-03-11 21:19:31 1741

转载 R语言(绘图入门)

原文链接:https://wklchris.github.io/R-plotting-basic.htmlR 的绘图功能一直为业内所津津乐道。用了 Python 的 ma...

2019-03-11 20:22:48 10750 1

转载 Python系列之——好用的Python开发工具

工欲善其事必先利其器,一个好的工具能让起到事半功倍的效果,Python社区提供了足够多的优秀工具来帮助开发者更方便的实现某些想法,下面这几个工具给我的工作也带来了很多便利,推荐给追求美好事物的你。Python TutorPython Tutor 是由 Philip Guo 开发的一个免费教育工具,可帮助学生攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。通过这个工具...

2019-03-10 23:17:03 1325

转载 Python科学计算:numpy

原文链接:https://wklchris.github.io/Py3-numpy.html本文介绍如何使用 numpy,一个强大的 Python 科学计算库。对于 Wi...

2019-03-08 21:52:32 593

转载 Python科学计算:pandas

原文链接:https://wklchris.github.io/Py3-pandas.htmlpandas 是 Python 下科学计算非常实用的一个工具。本文将简明扼要...

2019-03-07 21:13:46 543

转载 SQL中的笛卡尔你真的懂吗?

原文链接:https://www.cnblogs.com/CareySon/archive/2010/04/13/1711095.html什么是笛卡尔积?笛卡尔积是指在数...

2019-03-06 22:23:57 1258

转载 手机号归属地打标签的API分享

1#!/usr/bin/python 2#-*-coding:utf-8-*- 3importjson 4importurllib.request ...

2019-03-06 22:23:57 350

转载 Pandas里面的加权平均,我猜你不会用!

摘要Pandas包含多个内置函数,如sum、mean、max、min等,你可以将其应用于一个DataFrame或分组数据。然而,构建和使用自己定义的函数可以进一步了解...

2019-03-05 22:47:27 15955 2

转载 【数据分析系列】之——Python入门到进阶语法大全

原文链接:https://wklchris.github.io/Py3-basic.html#%E5%BA%8F%E5%88%97sequence本文简要记录了 Pyth...

2019-03-03 21:43:07 790

转载 命令行执行Python脚本乱码

待我代码写成,定娶你为妻。今天周五,分享一个简短,而常见的问题,周末愉快!Python脚本中如果有中文,而没有在头部指定脚本编码:# -*- coding:utf-8 -...

2019-03-01 21:06:14 1074

Zookeeper单机环境和集群环境搭建

Zookeeper单机环境和集群环境搭建

2023-06-15

虚拟机静态IP及多IP配置

虚拟机静态IP及多IP配置

2023-06-15

基于Zookeeper搭建Kafka高可用集群

基于Zookeeper搭建Kafka高可用集群

2023-06-15

基于Zookeeper搭建Hadoop高可用集群

基于Zookeeper搭建Hadoop高可用集群

2023-06-15

Storm集群环境搭建

Storm集群环境搭建

2023-06-15

Spark开发环境搭建

Spark开发环境搭建

2023-06-15

Spark集群环境搭建

Spark集群环境搭建

2023-06-15

Linux下Python安装

Linux下Python安装

2023-06-15

Linux下JDK安装

Linux下JDK安装

2023-06-15

Linux下Flume的安装

Linux下Flume的安装

2023-06-15

Linux环境下Hive的安装部署

Linux环境下Hive的安装部署

2023-06-15

HBase集群环境搭建

HBase集群环境搭建

2023-06-15

Hadoop集群环境搭建

Hadoop集群环境搭建

2023-06-15

docker 安装 wordpress,通过nginx反向代理,绑定域名,配置https

docker 安装 wordpress,通过nginx反向代理,绑定域名,配置https

2023-06-15

5分钟安装docker教程

5分钟安装docker教程

2023-06-15

2022年Python爬虫最全资料【6年爬虫经验精华总结】

【主要内容】 1. Python爬虫简介与环境安装 - Pythonn环境 - Selenium安装 - Python相关包 2. 基本库的使用 - 爬虫基本原理; - urlib库使用; - requests库使用; - bs4使用; - xpath和lxml使用; - selenium使用; - PyQuery使用; 3. scrapy基本使用 4. Scrapy redis实现分布式爬虫 5. 反爬措施 6. 手机APP爬虫 - 模拟器安装、fiddler、appium、mitmproxy安装; - 抓包工具的使用; - 移动端自动化控制; - 利用mitmproxy抓取存储数据; - apk脱壳反编译; references,学习资料分享 价格可谈,联系我:ddxygq。

2022-07-07

阿里巴巴java开发手册中文版

阿里巴巴java开发手册,高清原版,规范你的java开发习惯,让你的开发习惯与顶级互联网公对齐!

2018-09-02

hive-hbase-handler-1.2.1.jar

hive-hbase-handler-1.2.1.jar解决hive1.2.1,hbase不兼容情况!

2018-08-15

hadoop-2.7.2 windows7环境编译文件(winutils.exe、hadoop.dll)

windows环境下开发hadoop与本地运行,会报错,需要编译win环境hadoop工具 否则,可能会有两种错误: 1、Did not find winutils.exe: java.io.FileNotFoundException; 2、java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows 将里面的bin目录覆盖到hadoop对应bin目录即可

2018-03-07

用matlab编写猜字小游戏

用matlab编写猜字小游戏

2016-10-24

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除