日拱一卒的Alex-CSDN博客

转载计算机领域国际顶级会议

附件是计算机领域的学术会议等级排名情况，分为A+, A, B, C, L 共5个档次。其中A+属于顶级会议，基本是这个领域全世界大牛们参与和关注最多的会议。国内的研究者能在其中发表论文的话，是很值得骄傲的成就。A类也是非常好的会议了，尤其是一些热门的研究方向，A类的会议投稿多录用率低，部分A类会议影响力逐步逼近A+类会议。B类的会议分两种，一种称为盛会级，参与的人多，发表的论文也多，论文录用难...

2018-08-27 10:20:49 14464

原创【算法突击】动态规划系列（一）| 程序员面试 | 最大子数组和 | 最长递增子序列 | 最长公共子序列

提炼了三个非常基本的动态规划算法，非常适合刚入门或者急于应付面试的朋友们观看学习

2023-01-27 11:07:03 724

原创【算法突击】排序算法系列（一） | 程序员面试 | 冒泡排序 | 快速排序 | 归并排序

排序算法是每一个程序员都应该掌握的基本技能，本文对三个最常用的排序算法（冒泡排序、快速排序、归并排序）做了非常详尽的解析，非常适合入门数据结构的同学或者有面试需求的同学观看

2023-01-27 00:19:10 645

原创 Protocol Buffers 入门详解

Protocol Buffers 入门详解Protocol Buffers 入门详解1. 概念1.1 What?（什么是Protocol Buffers？）1.2 Why?（为什么使用Protocol Buffers？）1.3 How?（Protocol Buffers 是怎么做到的？）2.protobuf文件中的语法规范2.1 message结构2.2 enum类型2.3 Service接口2....

2019-09-03 11:30:55 635 1

原创算法-并查集-买女装

1.题目描述小庄是个女装爱好者，有一天他跑到女装店去买女装。商店里有编号从1到n的n件衣物饰品，每一件都有固定的魅力加成值。老板告诉他，其中某些商品必须搭配购买，而且商品之间的搭配关系具有传递性，若A与B搭配且B与C搭配，则A与C也搭配。小庄带的钱有限，请你帮他找到魅力加成值总和最大的购买方案。输入可能有多组输入。每组输入第一行有三个数N、M、W（1<=N<=1000...

2018-10-29 20:42:28 362

原创链表排序算法

1）题目对乱序的链表进行排序，要求空间复杂度为常数。（LeetCode 148 中等）输入: 4->2->1->3输出: 1->2->3->4 输入: -1->5->3->4->0输出: -1->0->3->4->5 2）思路对于这题我有两种解法，一种是时间复

2018-10-16 09:37:00 3454

原创企业笔试题_好未来_最大升序序列和

1. 题目对于正整数数组，求最大元素和，要求元素大小必须是升序。输入描述：正整数数组，假定数组长度<100，元素最大值<10000输出描述：最大升序和输入：5 1 3 4 9 7 6 8输出：23Hints：具有最大和的升序序列为 1 3 4 7 82. 思路认真审题，题目求的是最大的序列和，在这个基础上限定序列必须是升序。对于升...

2018-08-28 20:54:50 261

转载 Netty高性能之道

喜欢 | 作者李林锋发布于 2014年5月30日. 估计阅读时间: 25 分钟 | 来 QCon上海2018 关注大数据平台技术选型、搭建、系统迁移和优化的经验。51 讨论分享到：微博微信FacebookTwitter有道云笔记邮件分享稍后阅读我的阅读清单1. 背景1.1. 惊人的性能数据最近一个圈内朋友通过私信告诉我，通过使用Netty4 + Thrift...

2018-08-20 20:00:07 151

原创 Convolutional Neural Networks for Sentence Classification 阅读笔记

1.本文解决了什么问题？本文以预训练好的词向量矩阵表示一个句子，并且将其作为卷积神经网络的输入层，再通过标记好的数据训练出神经网络模型从而达到预测数据类别的效果。本文于14年发表，至今已被引用了1400多次。其核心意义是将“词向量”与“深度学习”结合在一起（从大的方向上可以说是将NLP与卷积神经网络结合在一起），并且通过实验证明了“词的向量表示”是NLP领域的重要组成部分，应该引起研究...

2018-07-22 16:15:57 3274 3

原创开发模块1——数据采集

3 模块开发——数据采集3.1 需求数据采集的需求广义上来说分为两大部分。1）是在页面采集用户的访问行为，具体开发工作：1、开发页面埋点js，采集用户访问行为2、后台接受页面js请求记录日志此部分工作也可以归属为“数据源”，其开发工作通常由web开发团队负责 2）是从web服务器上汇聚日志到HDFS，是数据分析系统的数据采集，此部分工作由数据分析平台建设团队负责，具

2017-12-16 19:07:28 1630 1

原创预备工作——数据处理流程

该项目是一个纯粹的数据分析项目，其整体流程基本上就是依据数据的处理流程进行，依此有以下几个大的步骤：1) 数据采集首先，通过页面嵌入JS代码的方式获取用户访问行为，并发送到web服务的后台记录日志然后，将各服务器上生成的点击流日志通过实时或批量的方式汇聚到HDFS文件系统中当然，一个综合分析系统，数据源可能不仅包含点击流数据，还有数据库中的业务数据（如用户信息、商品信息、订单

2017-12-16 18:38:17 309

原创 POJ 2259 Team Queue

1.题目 Team QueueTime Limit: 2000MS Memory Limit: 65536KTotal Submissions: 5322 Accepted: 1819DescriptionQueues and Priority Queues are data structures which

2017-11-18 19:32:45 236

原创 POJ 2082 Terrible Sets

1.题目Terrible SetsTime Limit: 1000MS Memory Limit: 30000KTotal Submissions: 5239 Accepted: 2660DescriptionLet N be the set of all natural numbers {0 , 1 , 2

2017-11-18 16:41:45 688

原创 Azkaban安装示例

1.准备工作Azkaban Web服务器azkaban-web-server-2.5.0.tar.gzAzkaban执行服务器 azkaban-executor-server-2.5.0.tar.gzAzkaban的sql脚本（注：在此之前机器上必先安装MySql）azkaban-sql-script-2.5.0.tar.gz将上述三个压缩包解压到当前用户目录。

2017-11-05 18:14:47 295 1

转载 LeetCode 76. Minimum Window Substring

问题：Given a string S and a string T, find the minimum window in S which will contain all the characters in T in complexity O(n).For example,S = "ADOBECODEBANC"T = "ABC"Minimum window is

2017-10-12 11:03:00 180

原创最少硬币问题

1.题目钱包里有一些硬币，1元，5元，10元，50元，100元，500元，现在用这些硬币去买自动贩卖机里价格为A的饮料。假设自动贩卖机所需金额必须是刚刚好，不能多不能少。问最少需要多少枚硬币输入： 1元，5元，10元，50元，100元，500元每枚硬币的个数和 A的值输出：凑成A的最少硬币数或者NO

2017-09-28 19:17:19 1966

原创 flume的多agent连接

1.需求将tail命令产生的信息在example01机器上用flume收集，并且将数据传到example02机器上，在example02机器上会将这些接收到的数据存储在hdfs集群上。2.实现1）example01机器上的tail-avro.conf文件a1.sources = r1a1.sinks = k1a1.channels = c1#

2017-09-21 18:46:45 2423

原创 LeetCode 675. Cut Off Trees for Golf Event

675. Cut Off Trees for Golf EventYou are asked to cut off trees in a forest for a golf event. The forest is represented as a non-negative 2D map, in this map:0 represents the obstacle can'

2017-09-21 10:03:57 1295 1

原创 LeetCode 542. 01 Matrix

1.题目给出由数字0和1组成的矩阵，找到每个数字1的格子距离所有数字0的格子最近的距离，并将每个数字1的格子中的数字改成对应的距离，并且输出改变后的矩阵。2.思路问题的解空间是一个有向图G，G的顶点集合V的取值为0或1，且每个顶点的输出边只在符合条件下遵循“上，下，左，右”四个方向，我们要求的就是从0号顶点集合V0到1号顶点集合V1的最少的边

2017-09-19 10:43:41 519

原创 LeetCode 515. Find Largest Value in Each Tree Row

1.题目题意简而言之就是求一颗二叉树的每一层最大节点，并用集合的形式将其返回。2.思路我的想法比较愚笨，是将此二叉树中的每一个节点标记上其所在的层数，然后在按层次标记遍历所有节点得出每一层的最大节点。其中做层次标记的时候与找最大节点时候都是用的层次遍历。3.代码 class TreeNode { int val; TreeNode left;

2017-09-18 18:37:28 377

原创 LeetCode 494. Target Sum

494. Target SumYou are given a list of non-negative integers, a1, a2, ..., an, and a target, S. Now you have 2 symbols + and -. For each integer, you should choose one from + and - as its ne

2017-09-11 16:33:08 180

原创 Leetcode 547. Friend Circles

Leetcode 547. Friend Circles JAVA实现深度优先遍历

2017-09-11 15:36:31 208

原创 Hive实现累计报表查询

1.需求有如下访客访问次数的统计表 t_access访客月份访问次数A 2015-01 5A 2015-01 15B 2015-01 5A 2015-01 8B 2015-01 25A 2015-01 5A 2015-02 4A 2015-02 6B 2015-02 10B 2015-02 5…… …… ……要求输出每个客户在每个月的总访问次数，以及在当

2017-09-06 22:57:46 5472 2

原创 Dijkstra算法JAVA实现

1.题目给定带权有向图G=（V，E，W），以及源点v∈V，求从v点出发到达其它顶点的最短路径。2.思路 1)设集合S中的顶点为当前已经找到最短路径的顶点。初始：S={v}，当S=V时算法结束。 2)将从源点v到顶点u且只经过集合S中顶点的路径称为：从v到u相对于S集合的最短路径。 dist[

2017-09-05 16:56:13 486

原创基于MapReduce框架的PageRank算法实现

1.PageRank简述 PageRank算法将互联网看成一个有向图，而互联网中的每一个网页看成图中的一个顶点，将网页之间的链接看做图中的边。并且通过顶点之间的邻接关系计算每一个网页的权值，然后根据这个值的大小对网页的重要性进行排序。PageRank生成的Web网页排序是静态的，这是指每个网页的排序值是通过离线计算得到的，并且该值与用户的查询无关。在讨论讨论PageRank的公式之前，先

2017-09-01 13:24:29 1913

原创 Kruskal算法的JAVA实现

1.算法描述克鲁斯卡尔算法需要对图的边进行访问，所以克鲁斯卡尔算法的时间复杂度只和边又关系，可以证明其时间复杂度为O（eloge）。2.算法思想1.将图各边按照权值进行排序2.将图遍历一次，找出权值最小的边，（条件：此次找出的边不能和已加入最小生成树集合的边构成环），若符合条件，则加入最小生成树的集合中。不符合条件则继续遍历图，寻找下一个最小权值的边。

2017-08-31 12:26:01 2482

原创 Prim算法的JAVA实现

1.算法思想设有向图G的顶点集合为V={1，2，...，n}，初始选择一个顶点加入 “已选集合”S中，选择连接S与V-S集合的最短边e=(i,j)，其中i∈S，j∈V-S，将e加入树T中，j加入S，一直执行上述操作直到S=V为止。2.JAVA代码 static int MAX = Integer.MAX_VALUE; static void prim(int[][]

2017-08-30 19:28:56 885

原创哈夫曼树的最长带权路径WPL算法

1.题目给出一组树节点集合（每个节点均有权值），求其最长带权路径2.思路1）首先利用给出的集合构造Huffman树将原节点集合按其权值从小到大排序，之后每次抽取前两个（最小权值）的节点剔除集合，并将两个权值想加之后赋给新的节点，再将新节点插入集合中。一直重复上述步骤直到集合中只有一个节点2）利用Huffman树的特性求WPL由哈夫曼树的特性可知，其数据节点均是叶子节

2017-08-30 17:10:33 7326

原创 Hive安装步骤

1.官网下载HIVE的压缩包 https://hive.apache.org/2.解压 tar -zxvf apache-hive-1.2.1-bin.tar.gz -C ~/apps3.安装MySql (其目的是保存hive数据库与数据表的元信息，不是保存数据表中的数据) mysql安装仅供参考，不同版本mysql有各自的安装流程 rpm -qa | grep

2017-08-29 10:09:41 404

原创 Hive疑难杂症

1.Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientLogging initialized using configuration in jar:file:/home/hadoop/apps/hive/lib/hive-common-1.2.1.jar!/hive-log4j.

2017-08-28 21:49:19 679

转载 PageRank算法详解

转载自：http://www.cnblogs.com/fengfenggirl/p/pagerank-introduction.htmlPageRank对网页排名的算法，曾是Google发家致富的法宝。以前虽然有实验过，但理解还是不透彻，这几天又看了一下，这里总结一下PageRank算法的基本原理。一、什么是pagerank　　PageRank的Page可是认为是网页，

2017-08-25 21:34:58 832

原创样本收集问题JAVA实现

王晓东计算机算法设计与分析（第四版）第三章课后习题3-15 P84页样本采集问题

2017-08-25 18:35:31 1949

原创最大k乘积

王晓东计算机算法设计与分析（第四版）第三章课后习题3-13 P83页最大k乘积问题

2017-08-25 16:51:12 543

原创基于MapReduce的二次排序

排序就是首先按照第一字段排序，然后再对第一字段相同的行按照第二字段排序，注意不能破坏第一次排序的结果。这里主要讲如何使用一个Mapreduce就可以实现二次排序。Hadoop有自带的SecondarySort程序，但这个程序只能对整数进行排序，所以我们需要对其进行改进，使其可以对任意字符串进行排序。下面会分别列出这两个程序的详解。

2017-08-24 20:22:39 423

原创 MapReduce实现寻找共同好友

MapReduce实现寻找共同好友详解

2017-08-23 23:16:43 5219 2

原创数字三角形问题

数字三角形问题【动态规划】

2017-08-23 12:10:31 374

原创 map端join算法实现

map端的表连接实现

2017-08-22 17:30:15 613

转载 CSDN博客积分规则

博客积分是CSDN对用户努力的认可和奖励，也是衡量博客水平的重要标准。博客等级也将由博客积分唯一决定。积分规则具体如下： 1、每发布一篇原创或者翻译文章：可获得10分； 2、每发布一篇转载文章：可获得2分； 3、博主的文章每被评论一次：可获得1分； 4、每发表一次评论：可获得1分（自己给自己评论、博主回复评论不获得积分）； 5、博文阅读次数每超过100次：可获得1分，阅读加分最高加到100

2017-08-22 14:05:11 453