aoren1305-CSDN博客

转载 Java List<String> list=new ArrayList<String>();为什么要声明为List，而不是ArrayList<String>...

例如：代码List list = new ArrayList();下面通过list来操作集合。假如代码编写后却发现集合使用的不准确，应该使用LinkedList，那么只要修改一行代码List list = new LinkedList();就可以。这行以后的代码不需要修改，因为List接口保证了调用的都是接口中的方法，而ArrayList与LinkedList都实现了List接口...

2019-09-12 18:04:00 1216

转载 Spark 宽窄依赖和stage的划分

窄依赖父RDD和子RDD partition之间的关系是一对一的，或者父RDD一个partition只对应一个子RDD的partition情况下的父RDD和子RDD partition关系是多对一的。不会有shuffle的产生，父RDD的一个分区去到子RDD的一个分区。多对一或者一对一可以理解为独生子女宽依赖父RDD与子RDD partition之间的关...

2019-09-12 18:00:00 237

转载 java ArrayList的remove()方法的参数为int和Integer的问题

ArrayList的父类List中，有2个remove重载方法：remove(int index)remove(Object o)假如参数输入为数字类型，到底是删除值等于该数字的对象还是删除索引为该数字的元素结果remove(1) 　　//是删除索引为1的元素remove(new Integer(1))　　//则删除元素1因为泛型类的类型必须为...

2019-09-06 16:42:00 594

转载 Java 二分法查找

思路如果 value==arr[mid],中间值正好等于要查找的值，则返回下标，return mid;如果 value<arr[mid],要找的值小于中间的值，则再往数组的小端找，high=mid-1;如果 value>arr[mid],要找的值大于中间的值，则再往数组的大端找，low=mid+1;代码import java.util.Arrays;...

2019-09-04 15:14:00 94

转载 Java 冒泡排序

需求数字按升序排列思路第一轮比较：从数组的第一个数（index=0）开始，依次和后面的数相比，若前者大则交换顺序，保证数字小的排前面（index=0的数字是这一轮参与比较的多个数里面，是最小的），直到比到最后一个数（index=arr.length-1）。第二轮比较：接着从第二个数（index=1）开始，依次和后面的数相比，若前者大则交换顺序，保证数字小的排前面（inde...

2019-09-04 00:16:00 79

转载 Spark 用Scala和Java分别实现wordcount

Scalaimport org.apache.spark.{SparkConf, SparkContext}object wordcount { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("wc_java").setMaster("local[...

2019-09-02 19:17:00 134

转载 hive 外部表和内部表的区别和相互转换

Hive内部表和外部表区别1.创建内部表时，内部表的数据文件是保存在指定的路径的；如若创建外部表，则只记录数据所在的路径，不会对数据位置做改变。2.删除表的时候，内部表元数据和数据会跟着一起删除。外部表只删除元数据内部表和外部表使用场景外部表：每天将收集到的网站日志定期流入 HDFS 文本文件。内部表：在外部表（原始日志表）的基础上做大量的统计分析，用到的中间表...

2019-08-30 18:59:00 159

转载 sqoop 导入增量数据到hive

版本hive：apache-hive-2.1.0sqoop：sqoop-1.4.6hadoop：hadoop-2.7.3导入方式1.append方式2.lastmodified方式，必须要加--append（追加）或者--merge-key（合并，一般填主键）创建mysql表并添加数据-- ----------------------------...

2019-08-30 18:50:00 342

转载 Hadoop 二次排序

需求求每年的最高气温，年份升序，温度求最高数据源内容如下temperature.txt2004 491981 -221981 -311965 -472027 -21964 62030 382016 -331963 132000 212019 02049 432039 81989 -182017 491952 ...

2019-08-26 09:59:00 110

转载 Spark foreachpartiton和mappartition的异同

相同都是对分区进行操作不同1、foreachpartition是Action操作，mappartition是Transformation操作2、foreachpartition无返回值，mappartition有返回值3、foreachpartition一般都是在程序末尾比如说要落地数据到存储系统中如mysql，es，或者hbase中，可以用它。当然在Transfor...

2019-08-24 21:41:00 413

转载 hadoop 实现多文件输出

需求不同的key输出到不同的文件txt文件multiple.txt中国;22美国;4342中国;123日本;44日本;6美国;55美国;43765日本;786日本;55Javaimport org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs...

2019-08-23 19:45:00 178

转载 spark 实现多文件输出

需求不同的key输出到不同的文件txt文件multiple.txt中国;22美国;4342中国;123日本;44日本;6美国;55美国;43765日本;786日本;55scala代码import org.apache.hadoop.mapred.lib.MultipleTextOutputFormatimport...

2019-08-23 19:34:00 504

转载 Scala 中 call by name & call by value 的区别

call by value：会先计算参数的值，然后再传递给被调用的函数call by name：参数会到实际使用的时候才计算定义方法def return1():Int = { println("calling...") 1}def callByValue(x: Int) = { 　　println("x1=" + x)　　...

2019-08-22 23:50:00 143

转载 Hadoop读写mysql

需求两张表，一张click表记录某广告某一天的点击量，另一张total_click表记录某广告的总点击量建表CREATE TABLE `click` ( `id` int(20) NOT NULL AUTO_INCREMENT, `ad_id` int(20) DEFAULT NULL, -- 广告ID `click_num` int(30) DE...

2019-08-22 16:43:00 95

转载 spark coalesce和repartition的区别和使用场景

区别：repartition底层调用的是coalesce方法，默认shuffledef repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope { coalesce(numPartitions, shuffle = true) }coalesce方...

2019-08-20 22:20:00 667

转载 Hadoop HDFS读写流程

读取：1)客户端调用 DistributedFileSystem 的 Open() 方法打开文件。2)DistributedFileSystem 用 RPC 连接到 NameNode，请求获取文件的数据块的信息；NameNode 返回文件的部分或者全部数据块列表；对于每个数据块，NameNode 都会返回该数据块副本的 DataNode 地址；DistributedFileS...

2019-08-19 21:01:00 76

转载 centos6 命令界面切换到图形界面

要进入图形界面，首先要安装。所以应该先执行yum groupinstall "X Window System" -yyum groupinstall "Desktop" -y接着，敲命令：startx 或 init 5转载于:https://www.cnblogs.com/Alcesttt/p/9000006.html...

2018-05-06 22:12:00 430

转载 vmware虚拟机下linux centos6.6只有lo，没有eth0网卡、随机分配ip地址，固定ip地址等问题...

这个问题卡了我一天多的时间，百度上搜出来的问题五花八门，反而把我给搞糊涂了。最后总算是实践成功了，记录一下配置的过程。配置网卡和随机分配ip地址我安装的是basic server版本，用的是NAT模式然后，确保服务里，这两个是已启动的centos刚安装好的时候，是没有eth0网卡的。cd /etc/sysconfig/network-...

2018-05-05 16:30:00 163

转载 MySQL优化技巧总结

MySQL优化的几个大方向① 硬件优化② 对MySQL配置参数进行优化（my.cnf）此优化需要进行压力测试来进行参数调整③ SQL语句方面的优化④ 表方面的优化硬件优化cpu，内存，硬盘等硬件的优化MySQL参数优化设置最大连接数set globle max_connections = 5000;long_query_time = 2超...

2018-04-30 21:55:00 117

转载 mysql在Windows下使用mysqldump命令手动备份数据库和自动备份数据库

手动备份：cmd控制台：先进入mysql所在的bin目录下，如：cdC:\Program Files\MySQL\MySQL Server 5.5\binmysqldump -u root -p 数据库 [表名1 表名2..] > 文件路径比如: 把datacenter数据库备份到 c:\datacenter.sqlmysqldump -u root ...

2018-04-29 22:28:00 188

转载解决不能修改 Mysql 慢查询 long_query_time 值的问题

起因：想修改一下自己电脑上的MySQL的 long_query_time 值，以此来测试 MySQL的慢查询功能。可是，无论怎么改，show variables like 'long_query_time' 命令的结果依然是10（如下图），修改之后，重启MySQL依然没用。解决方法：最后发现 my.ini 里并没有long_query_time 这个变量（可能是我用...

2018-04-24 21:31:00 630

转载 javascript知识点杂记

1 for(var i = 0; i < 10; i++) {2 setTimeout(function() {3 console.log(i); //输出10个10，因为setTimeout方法是异步的，当执行到setTimeout时，for循环已经执行完毕，i变量值为104 }, 1000);5 }1 for (v...

2017-07-29 23:41:00 99

转载用JavaScript获取URL参数的方法之一

若地址栏URL为：abc.html?m=tomms&c=allsearchlist&pageNo=1&pageNum=20&text=1 1 <script> 2 //JavaScript获取url，并把url中的参数变成数组的方法，arr数组的值就是各参数值 3 var url = window.documen...

2017-03-23 19:02:00 68

转载 Windows 安装配置memcached+php的教程

第一步：安装 Memcached 服务第二步：让php加载memcached.dll扩展详情步骤如下：第一步：安装 Memcached 服务1、下载 Memcached 密码:jzay。压缩文件里有三个文件夹，我用的是"memcached_win64_推荐"文件夹里的memcached.exe。2、安装memcached，安装之后无任何提示。3、启...

2017-03-20 19:37:00 104