Gpwner-CSDN博客

原创 Scala<apply的几种用法>

1.只是一个快捷方式首先定义个object:object Greet { def apply(name: String): Unit = { println("Call From %s".format(name)) }}object Main { def main(args: Array[String]): Unit = { Greet.apply("Gpwner")

2017-11-02 11:56:20 3218

原创 python爬虫<解决URL被重定向无法抓取到数据问题>

在写爱奇艺爬虫的时候经常碰到URL被重定向的问题，导致无法请求到数据：以下是我的代码：# -*- coding: utf-8 -*-import scrapyheaders = { 'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

2017-10-31 15:42:35 11956

原创 python爬虫<在Pipeline创建数据连接池批量写入MySQL>

以下是连接池的参数说明： def __init__(self, creator, mincached=0, maxcached=0, maxshared=0, maxconnections=0, blocking=False, maxusage=None, setsession=None, reset=True,

2017-10-30 13:44:49 2647

原创 python爬虫<将scrapy的请求设置为同步>

scrapy的请求是并发进行的，但是我今天有一个需求是要顺序爬网站上的信息，爬的是搜狗热搜榜的电影、电视剧、动漫、综艺的热搜排行榜，每一个爬前三页。顺序爬取下来然后存到数据库中。我的解决办法是在setting文件中将scrapy的并发数设置为1，当并发数为1的时候不就是同步了嘛# Configure maximum concurrent requests performed by Scrapy

2017-10-27 10:31:51 4756 1

原创 Ubuntu17.10<解决安装完网易云音乐无法打开>

在网易云官网上下载好了网易云的Linux版本之后，双击安装包安装完毕，发现不能打开，查了很多资料，最后找到了以下解决办法：在终端以root用户登陆，输入如下指令：netease-cloud-music --no-sandbox %U我的电脑是出现了一下的错误：Unable to locate theme engine in module_path: "adwaita"解决办法是，继续在终端输入以下命

2017-10-25 22:18:03 25007 3

原创 Ubuntu1710<Apt源>

系统初始源：#deb cdrom:[Ubuntu 17.10 _Artful Aardvark_ - Release amd64 (20171018)]/ artful main restricted# See http://help.ubuntu.com/community/UpgradeNotes for how to upgrade to# newer versions of the dis

2017-10-21 15:36:31 916

原创分割线<秋招结束，接下来的>

从风风火火地从帝都赶回学校，再到风风火火地去签约，2017年09月29日，总算拿到一份不论是从薪资还是工作地点都满意的offer，秋招就此结束吧，接下来要好好复习一下Scala、继续看Java虚拟机、进一步学习机器学习了~~

2017-10-01 19:47:46 328

原创 spark<SecurityException: Invalid signature file digest for Manifest main attributes>

driver打包程Jar包提交到集群上之后抛了以下异常：Exception in thread "main" java.lang.SecurityException: Invalid signature file digest for Manifest main attributes at sun.security.util.SignatureFileVerifier.processImp

2017-09-18 09:58:23 1973

原创 spark<CommunicationsException: Communications link failure>

driver在本地跑的好好的，打包提交打spark集群中却抛了以下异常：Exception in thread "main" com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failureThe last packet sent successfully to the server was 0

2017-09-18 09:49:49 2220

原创 spark<log4j配置控制台日志级别输出>

如果想要输出INFO级别以上的日志做如下配置,在src/main/resources/下新建一个log4j.properties文件，文件中的内容如下：# Set everything to be logged to the consolelog4j.rootCategory=INFO,consolelog4j.appender.console=org.apache.log4j.ConsoleA

2017-09-18 09:39:54 1130

原创 spark<Dataframe 直接写入hive表>

import org.apache.spark.rdd.RDDimport org.apache.spark.sql.hive.HiveContextimport org.apache.spark.sql.{DataFrame, SQLContext, SaveMode}import org.apache.spark.{SparkConf, SparkContext}object Main {

2017-09-15 14:35:47 7004

原创 spark<java.nio.channels.ClosedChannelException>

因为在提交spark任务的时候没有指定节点的内存的大小，采用了默认的配置导致发生了一下的异常： (106 + 45) / 200]17/09/15 10:04:46 ERROR client.TransportClient: Failed to send RPC 7807032932563004737 to dn129.avcdata.com/192.168.20.129:40006: java

2017-09-15 10:20:51 4053

原创 spark<java.io.NotSerializableException>

我新定义了一个类（tools.UCleaner），放到Spark中做数据清洗的时候，跑了一个任务未序列化的异常Exception in thread "main" org.apache.spark.SparkException: Task not serializable at org.apache.spark.util.ClosureCleaner$.ensureSerializable(

2017-09-13 11:56:32 2757

原创 python<win10下使用定时任务执行爬虫程序>

公司有一个需求，每天定时执行一次爬虫以便得到目标数据。一下是定时任务的配置过程以及一个大坑（花费了我两个小时）。1.打开任务计划程序2.创建基本任务3.填写触发器出发时间4.定义定时任务的操作为“启动程序”5.选择启动程序选择你的脚本这里有一个大坑别看“起始于”那个参数是可选的，如果不填的话就会报0x2的错误，导致定时任务执行失败：第一个填写你的脚本的绝对路径+脚本名称，第二

2017-09-07 15:23:58 6654

原创算法<Array Partition I>

这个题目的要求是给定一个数组，有2N个元素，将其划分为N对（每一对有两个元素），使得每一对中的最小的元素相加的总和最大，例如：有一个数组： s=a1+b1+a2+b2+a3+b(3)+…+an+bn;我们的目标是将数组划分诸如： (a1,b1),(a2,b2),(a3,b3),….(an,bn) 然后求： Sm = min(a1, b1) + min(a2, b2) + … + min(an

2017-09-03 19:16:13 437

原创算法<删除一个数组中为0的元素>

题目要求：给一个一维数组，将其中为0的元素删除掉，非零元素的相对位置保持不变，最终目标数组保留在原数组，目标长度之外的元素全部置为0。Given an array nums, write a function to move all 0's to the end of it while maintaining the relative order of the non-zero elements.F

2017-09-03 15:27:14 2102

原创算法<Maximum Product Subarray>

题目的要求是求一个一维数组中子串的最大乘积，比如：Find the contiguous subarray within an array (containing at least one number) which has the largest product.For example, given the array [2,3,-2,4],the contiguous subarray [2,

2017-09-03 11:13:15 416

原创算法<Best Time to Buy and Sell Stock>

算法的题目是这样的：有一个一维数组，数组的下标表示日期，下标对应的元素为该日股票的价格，请设计一个算法来求出股票买入和卖出的最大收益。Example 1:Input: [7, 1, 5, 3, 6, 4]Output: 5max. difference = 6-1 = 5 (not 7-1 = 6, as selling price needs to be larger than buying

2017-09-02 22:33:46 462

原创算法<求算数平方根>

使用代码完成求一个数的平方根这里只说牛顿迭代法：计算x2 = n的解，令f(x)=x2-n，相当于求解f(x)=0的解，如左图所示。首先取x0，如果x0不是解，做一个经过(x0,f(x0))这个点的切线，与x轴的交点为x1。同样的道理，如果x1不是解，做一个经过(x1,f(x1))这个点的切线，与x轴的交点为x2。以此类推。以这样的方式得到的xi会无限趋近于f(x)=

2017-08-30 21:14:45 2471

原创 python< 解决OperationalError (2006, 'MySQL server has gone away')>

今天在将爬虫数据写入MySQL的时候，发现了一个很蛋疼的问题在管道中写操作MySQL的逻辑的时候，有一部分数据能写入数据库，但是另外一部分数据写不进去，经过检查发现并不是数据格式的问题。 OperationalError (2006, 'MySQL server has gone away')经过多方排查最终确定为由于爬虫的时候有些网页可能需要很长时间才能打开，导致MySQL连接超时。解决的

2017-08-28 17:24:15 5732

原创 python<使用python操作Mysql>

环境：anacon2(python2.7)MySQL5.7.17MySQL_python-1.2.5-cp27-none-win_amd64.whl对应版本的whl文件可以在这个网站下载： http://www.lfd.uci.edu/~gohlke/pythonlibs/ 部门leader有个需求叫我把爬虫的数据做清洗然后写入MySQL，由于对python的使用还停留在边学边用的水平，以下

2017-08-27 00:22:18 372

原创 <算法>基于三路划分的链表快速排序

此算法基于三路划分的快速排序的思想，如果不懂请先看我之前的博客： http://blog.csdn.net/gpwner/article/details/76039533但是又不完全和之前将的三路划分完全一样下面开始进入正题：首先得到一个链表之后，我们将链表拆分为小于、等于、大于头结点的子链表：然后再递归调用算法，将小链表和大链表进行排序，最后再将链表连接成一个与原来的链表一样的链表。递归

2017-07-31 16:41:27 531

原创 Java<链表引用置为null是否能删掉一个节点>

链表的节点的定义如下：public class ListNode { int val; ListNode next; ListNode(int x) { val = x; }}主函数：package leetcode;/** * @version 2017/7/29.21:17 */public class Main { public s

2017-07-30 22:03:24 1261

原创算法<翻转链表的指定区间>

要求：翻转一个链表的指定区间，比如链表1->2->3->4->5,翻转第二个元素到第四个元素之后的新链表为：1->4->3->2->5思路：首先找到要翻转的第一个元素的前一个元素，比如现在我要翻转的区间是[2,4]，那我首先要找到节点1。然后节点2置为翻转区间的头结点（在整个翻转过程中整个元素是不变的）。这里以翻转2、3节点为例子：首先将节点1的next指针指向节点3，然后将节点2的next

2017-07-30 20:35:32 726

原创 Django<加载static目录下的CSS-JS>

博主之前没有接触过Django,最近有一个项目需求要做一个可视化的展示，但是一直无法加载static文件下的JS和CSS，经过一番折腾，最后终于搞定了。下面是完整的过程：1.我的项目结构：2.在与settings.py文件的统计目录下，新建static文件夹，然后在新建两个子目录（static_dirs、static_root）,然后在settings.py文件中添加以下代码：STATIC_URL

2017-07-25 11:49:23 1447

原创算法<基于三路划分的快速排序>

当待排序元素序列中有大量的重复排序码时，简单的快速排序算法的效率将会降到非常之低。一种直接的想法就是将待排序列分成三个子序列：一部分是排序码比基准元素排序码小的；一部分是与基准元素排序码等值的；一部分是比基准元素排序码大的，如下图所示：但是，如果我们直接据此思想去编写实现算法的话，会让我们面临很大的困难。与基准元素等值的元素到底有多少？以及如何最快速有效地确定划分的边界？所以，完成这样的三路划分

2017-07-24 23:35:31 1496

原创算法<Permutation Sequence>

问题描述：给定1-n个整数，将这N个数字做全排列，求第K个排列，结果用String形式返回。分析：对于{1，2，3，4}的全排列来说，可以是： 1+{2，3，4}的全排列； 2+{1，3，4}的全排列； 3+{1，2，4}的全排列； 4+{1，2，3}的全排列；假如我们要求第十五个全排列，那么我们的流程应该是k=15-1i=1;14/3!=2=>数组{1,2,3,4}中第三个数字是3，

2017-07-22 22:50:21 399

原创算法<Next Permutation问题>

此问题描述如下：给定一个数组，首先从后向前找出最长的递减序列的前一个元素，比如数组{1, 5, 8, 4, 7, 6, 5, 3, 1}中，从后向前最长递减序列是{ 7, 6, 5, 3, 1}，这个序列的前一个元素就是4，然后再递减序列中找到最后一个比这个数（4）大的数字（就是5），然后将5与4交换，得到新的数组{1, 5, 8, 5, 7, 6, 4, 3, 1}，然后将交换过后的递减序列进

2017-07-21 23:06:26 428

原创 OpenCV<在windows下OpenCV与anaconda的集成>

到官网上下载对应的版本，然后解压（我是用的是anaconda2，选在的是opencv2.4.13）http://opencv.org/opencv-v2-4-2-released.html http://opencv.org/releases.html 下载之后解压，在解压目录下找到D:\opencv\build\python\2.7\x64\cv2.pyd并将其拷贝到anaconda安装目录下

2017-07-19 17:10:44 1739

原创算法<含相同元素数组的全排列>

可以借鉴我的上一篇博客（http://blog.csdn.net/gpwner/article/details/75212890）来简单得得到答案：import java.util.ArrayList;import java.util.List;import java.util.stream.Collectors;import java.util.stream.IntStream;/** *

2017-07-17 11:01:50 656

原创算法<不含相同元素数组的全排列>

这里只考虑元素是各不相同的情况思路：全排列其实可以从前往后，分别将每一个数字与其后面的数字进行交换，从而得到所有的结果。比如由1，2，3可以得到1，2，3、2，1，3、3，2，1三种，然后有1，2，3可以得到1，2，3和1，3，2，依次类推。化成图就是下面的结果：代码如下：import java.util.ArrayList;import java.util.List;import ja

2017-07-16 22:53:56 635

原创 Java8<使用流API优雅地将int[]转换为ArrayList>

import java.util.List;import java.util.stream.Collectors;import java.util.stream.IntStream;public class Test1 { public static void main(String[] args) { int[] nums = {1, 2, 3, 4};

2017-07-16 22:31:09 1820

原创算法<异或操作交换两个数的坑>

相信大多数人能很快地写出交换两个数的代码,so easy： private static void swapTwoNum(int[] A, int i, int j) { System.out.println("交换前：" + A[i] + " " + A[j]); int temp = A[i]; A[i] = A[j]; A[j]

2017-07-16 22:02:08 725

原创算法<递归与非递归方式翻转单链表>

链表的节点定义：public class ListNode { int val; ListNode next; ListNode(int x) { val = x; }}1.递归：public class Demo { public ListNode reverseList(ListNode head) { //当前节点翻转过

2017-07-14 23:26:40 451

原创 Storm1.1.0<trident+window+Hbase集成实现词频统计TopN>

1.温故而知新，使用词频统计实现TopN，以下是使用到的依赖：<dependencies> <dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-core</artifactId> <version>1.1.0</version>

2017-07-10 16:10:06 1453

原创 Kafka 0.10.2<auto.offset.reset和enable.auto.commit>

温故而知新，重新复习一下Kafka的这两个参数这个两个参数官网也有介绍，不过来自己实践一遍才能更好地理解 https://kafka.apache.org/0102/documentation.html 1.Kafka tool先介绍一个这个工具http://www.kafkatool.com/ 这个东西可以很直观地看出Kafka的各个维度地信息还能看到消费者的消费offsetstar

2017-07-06 09:26:31 10780

原创 MariaDB<Access denied for user 'root'@'172.17.11.85' (using password: YES)>

今天通过JDBC连接MariaDB的时候出现了这个问题：`` java.sql.SQLException: Access denied for user 'root'@'172.17.11.85' (using password: YES) 大致一说是root用户在172.17.11.85这台机器上没有权限登录MariaDB 解决办法:进入MariaDB CLI: grant all pri

2017-07-03 19:53:18 2266

原创 Storm1.1.0<消息的可靠性机制>

Storm允许用户在spout中发射一个新的源tuple时为其指定一个message id, 这个message id可以是任意的object对象。多个源tuple可以共用一个message id，表示这多个源 tuple对用户来说是同一个消息单元。 storm中记录级容错的意思是说， storm会告知用户每一个消息单元是否在指定时间内被完全处理了。那什么叫做完全处理呢，就是该message id绑

2017-07-03 09:53:02 600

原创 Storm1.1.0<温故而知新-网站用户使用的浏览器统计>

软件环境：storm1.1.0使用一个600多兆的网站日志来模拟网站每天产生的日志信息120.197.87.216 - - [04/Jan/2012:00:00:02 +0800] "GET /home.php?mod=space&uid=563413&mobile=yes HTTP/1.1" 200 3388 "-" "-"123.126.50.73 - - [04/Jan/2012:00:00

2017-07-03 09:26:43 937

原创 Storm1.1.0<组件的并行度和组件的实例个数的关系>

软件环境：Apache-storm-1.1.0一个组件类的并行度与其实例化的个数有什么关系？来探索一下，首先我配置控制台的输出，只输出日志的WARN级别以上和标准输出的信息http://blog.csdn.net/gpwner/article/details/74170806然后利用storm-starter的例子：import java.util.Map;import org.apache.

2017-07-03 08:35:31 729

adbwireless

写好的样式

Tomcat安装程序

数据库驱动包

Eclipse各个版本汉化包

空空如也