自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 问答 (1)
  • 收藏
  • 关注

转载 从0开始基于python3用scrapy爬取数据

摘要:本文主要介绍0基础从python3的安装到使用scrapy框架抓取某母婴电商的数据并简单分析。主要包括以下内容:   第一爬:官网第一次爬取数据强烈推荐内网系统,免得一个代理问题就让激情退却了: 安装python3下载地址:https://www.python.org/downloads/查看安装版本以验证安

2017-12-27 16:45:26 4902 2

转载 Azkaban安装部署

在root的用户下搭建的• Azkaban安装部署(可参照:http://azkaban.github.io/azkaban/docs/latest/) 1):前提 安装JDK,安装Hadoop,Hive客户端环境2):前提 安装 git 的命令 :apt-get install git3):把github的azkaban源码下载命令:git clone

2017-11-23 10:04:40 836

转载 Java并发编程:volatile关键字解析

volatile这个关键字可能很多朋友都听说过,或许也都用过。在Java 5之前,它是一个备受争议的关键字,因为在程序中使用它往往会导致出人意料的结果。在Java 5之后,volatile关键字才得以重获生机。volatile关键字虽然从字面上理解起来比较简单,但是要用好不是一件容易的事情。由于volatile关键字是与Java的内存模型有关的,因此在讲述volatile关键之前,我们先来

2017-10-18 10:49:33 197

转载 4分钟插入1000万条数据到mysql数据库表

我用到的数据库为,mysql数据库5.7版本的1.首先自己准备好数据库表其实我在插入1000万条数据的时候遇到了一些问题,现在先来解决他们,一开始我插入100万条数据时候报错,控制台的信息如下:com.mysql.jdbc.PacketTooBigException: Packet for query is too large (4232009 > 4194304). Yo

2017-10-13 14:45:42 1103

转载 基数排序(桶排序)

第一步以LSD为例,假设原来有一串数值如下所示:73, 22, 93, 43, 55, 14, 28, 65, 39, 81首先根据个位数的数值,在走访数值时将它们分配至编号0到9的桶子中:01 812 223 73 93 434 145 55 65678 289 39第二步接下

2017-10-13 10:52:49 280

转载 Spark基础随笔:Spark1.6 Idea下远程调试的2种方法

使用的开发工具:scala2.10.4、Idea16、JDK8 对于电脑配置不错或和Spark集群在同一个网下的朋友,可以使用方法1;若不是请使用方法2方法1把自己的电脑作为Driver端,直接把jar包提交到集群,此时Spark的Master与Worker会一直和本机的Driver端保持连接,调试比较方便。[java] view p

2017-10-12 15:16:45 258

转载 Scala Option(选项)

Scala Option(选项)类型用来表示一个值是可选的(有值或无值)。Option[T] 是一个类型为 T 的可选值的容器: 如果值存在, Option[T] 就是一个 Some[T] ,如果不存在, Option[T] 就是对象 None 。接下来我们来看一段代码:// 虽然 Scala 可以不定义变量的类型,不过为了清楚些,我还是// 把他显示的定义上了 val

2017-10-11 14:17:05 418

转载 spark-通过StructType直接指定Schema

[java] view plain copypackage cn.itcast.spark.sql    import org.apache.spark.sql.{Row, SQLContext}  import org.apache.spark.sql.types._  import org.apache.spark.{SparkContext, 

2017-10-09 16:20:24 4774

转载 spark源码解析-启动流程

spark源码解析1-master启动流程1、在start-master.sh脚本中调用Mater.scala中的main方法2、在main方法中封装spark参数,并调用startRpcEnvAndEndpoint()创建RpcEnv3、在startRpcEnvAndEndpoint中创建RpcEnv(AkkaSystem),创建masterEndPoint(acto

2017-09-30 15:23:00 461

转载 spark读写压缩文件API使用详解

最近研究了下Spark如何读写压缩格式的文件,主要有如下三种方式,这里以lzo方式压缩为例12345678910111213141516171819202122    

2017-09-30 15:16:34 5546

转载 Spark调优简单总结

Spark作为内存计算框架,需要做一些优化调整来减少内存占用,例如将RDD以序列化格式保存。总结为两大块:1,数据序列化;2,减少内存占用以及内存调优。数据序列化Spark着眼于便利性和性能的一个平衡,Spark主要提供了两个序列化库:Java Serialization:默认情况,Java序列化很灵活但性能较差,同时序列化后占用的字节数也较多。Kryo Seria

2017-09-30 15:15:04 356

转载 spark submit参数及调优

spark submit参数及调优spark submit参数介绍你可以通过spark-submit --help或者spark-shell --help来查看这些参数。使用格式: ./bin/spark-submit \  --class \  --master \  --deploy-mode \  --conf = \  ...

2017-09-30 14:41:04 448

转载 shell 脚本教程 入门级

建立一个脚本   Linux中有好多中不同的shell,但是通常我们使用bash (bourne again shell) 进行shell编程,因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash(但是在大多数情况下,这些脚本同样可以在 bash的大姐,bourne shell中运行)。   如同其他语言一样,通过我们使用任意一种文字编辑器,比如nedit、

2017-09-30 11:54:37 259

转载 Shell之date用法

#man date可以看到date的help文件  #date 获取当前时间  #date -d "-1week" +%Y%m%d 获取上周日期(day,month,year,hour)  #date--date="-24 hour" +%Y%m%d 同上  date_now=`date+%s` shell脚本里面赋给变量值  %% 输出%符号  %a 当前域的星期缩写 (

2017-09-30 11:47:43 1202

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除