fanbest325-CSDN博客

转载从0开始基于python3用scrapy爬取数据

摘要：本文主要介绍0基础从python3的安装到使用scrapy框架抓取某母婴电商的数据并简单分析。主要包括以下内容：第一爬：官网第一次爬取数据强烈推荐内网系统，免得一个代理问题就让激情退却了：安装python3下载地址：https://www.python.org/downloads/查看安装版本以验证安

2017-12-27 16:45:26 4957

转载 Azkaban安装部署

在root的用户下搭建的• Azkaban安装部署（可参照：http://azkaban.github.io/azkaban/docs/latest/） 1)：前提安装JDK，安装Hadoop，Hive客户端环境2）：前提安装 git 的命令：apt-get install git3）：把github的azkaban源码下载命令：git clone

2017-11-23 10:04:40 862

转载 Java并发编程：volatile关键字解析

volatile这个关键字可能很多朋友都听说过，或许也都用过。在Java 5之前，它是一个备受争议的关键字，因为在程序中使用它往往会导致出人意料的结果。在Java 5之后，volatile关键字才得以重获生机。volatile关键字虽然从字面上理解起来比较简单，但是要用好不是一件容易的事情。由于volatile关键字是与Java的内存模型有关的，因此在讲述volatile关键之前，我们先来

2017-10-18 10:49:33 226

转载 4分钟插入1000万条数据到mysql数据库表

我用到的数据库为，mysql数据库5.7版本的1.首先自己准备好数据库表其实我在插入1000万条数据的时候遇到了一些问题，现在先来解决他们，一开始我插入100万条数据时候报错，控制台的信息如下：com.mysql.jdbc.PacketTooBigException: Packet for query is too large (4232009 > 4194304). Yo

2017-10-13 14:45:42 1138

转载基数排序(桶排序)

第一步以LSD为例，假设原来有一串数值如下所示：73, 22, 93, 43, 55, 14, 28, 65, 39, 81首先根据个位数的数值，在走访数值时将它们分配至编号0到9的桶子中：01 812 223 73 93 434 145 55 65678 289 39第二步接下

2017-10-13 10:52:49 297

转载 Spark基础随笔：Spark1.6 Idea下远程调试的2种方法

使用的开发工具：scala2.10.4、Idea16、JDK8 对于电脑配置不错或和Spark集群在同一个网下的朋友，可以使用方法1；若不是请使用方法2方法1把自己的电脑作为Driver端，直接把jar包提交到集群，此时Spark的Master与Worker会一直和本机的Driver端保持连接，调试比较方便。[java] view p

2017-10-12 15:16:45 273

转载 Scala Option(选项)

Scala Option(选项)类型用来表示一个值是可选的（有值或无值)。Option[T] 是一个类型为 T 的可选值的容器：如果值存在， Option[T] 就是一个 Some[T] ，如果不存在， Option[T] 就是对象 None 。接下来我们来看一段代码：// 虽然 Scala 可以不定义变量的类型，不过为了清楚些，我还是// 把他显示的定义上了 val

2017-10-11 14:17:05 432

转载 spark-通过StructType直接指定Schema

[java] view plain copypackage cn.itcast.spark.sql import org.apache.spark.sql.{Row, SQLContext} import org.apache.spark.sql.types._ import org.apache.spark.{SparkContext,

2017-10-09 16:20:24 4815

转载 spark源码解析-启动流程

spark源码解析1-master启动流程1、在start-master.sh脚本中调用Mater.scala中的main方法2、在main方法中封装spark参数，并调用startRpcEnvAndEndpoint（）创建RpcEnv3、在startRpcEnvAndEndpoint中创建RpcEnv（AkkaSystem），创建masterEndPoint（acto

2017-09-30 15:23:00 482

转载 spark读写压缩文件API使用详解

最近研究了下Spark如何读写压缩格式的文件，主要有如下三种方式，这里以lzo方式压缩为例12345678910111213141516171819202122

2017-09-30 15:16:34 5616

转载 Spark调优简单总结

Spark作为内存计算框架，需要做一些优化调整来减少内存占用，例如将RDD以序列化格式保存。总结为两大块：1，数据序列化；2，减少内存占用以及内存调优。数据序列化Spark着眼于便利性和性能的一个平衡，Spark主要提供了两个序列化库：Java Serialization：默认情况，Java序列化很灵活但性能较差，同时序列化后占用的字节数也较多。Kryo Seria

2017-09-30 15:15:04 400

转载 spark submit参数及调优

spark submit参数及调优spark submit参数介绍你可以通过spark-submit --help或者spark-shell --help来查看这些参数。使用格式: ./bin/spark-submit \ --class \ --master \ --deploy-mode \ --conf = \ ...

2017-09-30 14:41:04 460

转载 shell 脚本教程入门级

建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样，通过我们使用任意一种文字编辑器，比如nedit、

2017-09-30 11:54:37 280

转载 Shell之date用法

#man date可以看到date的help文件　　#date 获取当前时间　　#date -d "-1week" +%Y%m%d 获取上周日期（day,month,year,hour）　　#date--date="-24 hour" +%Y%m%d 同上　　date_now=`date+%s` shell脚本里面赋给变量值　　%% 输出%符号　　%a 当前域的星期缩写 (

2017-09-30 11:47:43 1240