- 博客(14)
- 问答 (1)
- 收藏
- 关注
转载 从0开始基于python3用scrapy爬取数据
摘要:本文主要介绍0基础从python3的安装到使用scrapy框架抓取某母婴电商的数据并简单分析。主要包括以下内容: 第一爬:官网第一次爬取数据强烈推荐内网系统,免得一个代理问题就让激情退却了: 安装python3下载地址:https://www.python.org/downloads/查看安装版本以验证安
2017-12-27 16:45:26 4902 2
转载 Azkaban安装部署
在root的用户下搭建的• Azkaban安装部署(可参照:http://azkaban.github.io/azkaban/docs/latest/) 1):前提 安装JDK,安装Hadoop,Hive客户端环境2):前提 安装 git 的命令 :apt-get install git3):把github的azkaban源码下载命令:git clone
2017-11-23 10:04:40 836
转载 Java并发编程:volatile关键字解析
volatile这个关键字可能很多朋友都听说过,或许也都用过。在Java 5之前,它是一个备受争议的关键字,因为在程序中使用它往往会导致出人意料的结果。在Java 5之后,volatile关键字才得以重获生机。volatile关键字虽然从字面上理解起来比较简单,但是要用好不是一件容易的事情。由于volatile关键字是与Java的内存模型有关的,因此在讲述volatile关键之前,我们先来
2017-10-18 10:49:33 197
转载 4分钟插入1000万条数据到mysql数据库表
我用到的数据库为,mysql数据库5.7版本的1.首先自己准备好数据库表其实我在插入1000万条数据的时候遇到了一些问题,现在先来解决他们,一开始我插入100万条数据时候报错,控制台的信息如下:com.mysql.jdbc.PacketTooBigException: Packet for query is too large (4232009 > 4194304). Yo
2017-10-13 14:45:42 1103
转载 基数排序(桶排序)
第一步以LSD为例,假设原来有一串数值如下所示:73, 22, 93, 43, 55, 14, 28, 65, 39, 81首先根据个位数的数值,在走访数值时将它们分配至编号0到9的桶子中:01 812 223 73 93 434 145 55 65678 289 39第二步接下
2017-10-13 10:52:49 280
转载 Spark基础随笔:Spark1.6 Idea下远程调试的2种方法
使用的开发工具:scala2.10.4、Idea16、JDK8 对于电脑配置不错或和Spark集群在同一个网下的朋友,可以使用方法1;若不是请使用方法2方法1把自己的电脑作为Driver端,直接把jar包提交到集群,此时Spark的Master与Worker会一直和本机的Driver端保持连接,调试比较方便。[java] view p
2017-10-12 15:16:45 258
转载 Scala Option(选项)
Scala Option(选项)类型用来表示一个值是可选的(有值或无值)。Option[T] 是一个类型为 T 的可选值的容器: 如果值存在, Option[T] 就是一个 Some[T] ,如果不存在, Option[T] 就是对象 None 。接下来我们来看一段代码:// 虽然 Scala 可以不定义变量的类型,不过为了清楚些,我还是// 把他显示的定义上了 val
2017-10-11 14:17:05 418
转载 spark-通过StructType直接指定Schema
[java] view plain copypackage cn.itcast.spark.sql import org.apache.spark.sql.{Row, SQLContext} import org.apache.spark.sql.types._ import org.apache.spark.{SparkContext,
2017-10-09 16:20:24 4774
转载 spark源码解析-启动流程
spark源码解析1-master启动流程1、在start-master.sh脚本中调用Mater.scala中的main方法2、在main方法中封装spark参数,并调用startRpcEnvAndEndpoint()创建RpcEnv3、在startRpcEnvAndEndpoint中创建RpcEnv(AkkaSystem),创建masterEndPoint(acto
2017-09-30 15:23:00 461
转载 spark读写压缩文件API使用详解
最近研究了下Spark如何读写压缩格式的文件,主要有如下三种方式,这里以lzo方式压缩为例12345678910111213141516171819202122
2017-09-30 15:16:34 5546
转载 Spark调优简单总结
Spark作为内存计算框架,需要做一些优化调整来减少内存占用,例如将RDD以序列化格式保存。总结为两大块:1,数据序列化;2,减少内存占用以及内存调优。数据序列化Spark着眼于便利性和性能的一个平衡,Spark主要提供了两个序列化库:Java Serialization:默认情况,Java序列化很灵活但性能较差,同时序列化后占用的字节数也较多。Kryo Seria
2017-09-30 15:15:04 356
转载 spark submit参数及调优
spark submit参数及调优spark submit参数介绍你可以通过spark-submit --help或者spark-shell --help来查看这些参数。使用格式: ./bin/spark-submit \ --class \ --master \ --deploy-mode \ --conf = \ ...
2017-09-30 14:41:04 448
转载 shell 脚本教程 入门级
建立一个脚本 Linux中有好多中不同的shell,但是通常我们使用bash (bourne again shell) 进行shell编程,因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash(但是在大多数情况下,这些脚本同样可以在 bash的大姐,bourne shell中运行)。 如同其他语言一样,通过我们使用任意一种文字编辑器,比如nedit、
2017-09-30 11:54:37 259
转载 Shell之date用法
#man date可以看到date的help文件 #date 获取当前时间 #date -d "-1week" +%Y%m%d 获取上周日期(day,month,year,hour) #date--date="-24 hour" +%Y%m%d 同上 date_now=`date+%s` shell脚本里面赋给变量值 %% 输出%符号 %a 当前域的星期缩写 (
2017-09-30 11:47:43 1202
空空如也
网游与云计算,分布式数据库的应用之间的关系,
2015-05-10
TA创建的收藏夹 TA关注的收藏夹
TA关注的人