关闭

[置顶] Storm1.1.0<消息的可靠性机制>

Storm允许用户在spout中发射一个新的源tuple时为其指定一个message id, 这个message id可以是任意的object对象。多个源tuple可以共用一个message id,表示这多个源 tuple对用户来说是同一个消息单元。 storm中记录级容错的意思是说, storm会告知用户每一个消息单元是否在指定时间内被完全处理了。那什么叫做完全处理呢,就是该message id绑...
阅读(205) 评论(0)

[置顶] Hive1.2.1<常用操作示例>

版本:apache-hive-1.2.1 使用到的数据:链接:http://pan.baidu.com/s/1c2xmk1M 密码:uucs1. train 01.创建10min数据托管表。 create table TenminData_tg ( `DATASOURCE` string , `FAN_NO` string , `DATA_DATE` string, `FAN_STATUS`...
阅读(315) 评论(0)

[置顶] Python<H2o使用分布式随机森林建模分类>

1.安装H2ocmd:输入pip install h2o2.启动python import h2o h2o.init()启动成功之后可以在浏览器中输入:localhost:54321 3.数据准备使用到的数据在我的github 3.建模a.读入数据 b.解析文件 c.查看Job d.创建模型 e.选择随机森林 f.选择特征,响应列,其他参数按需调整 g.参数填好之后,建模h....
阅读(565) 评论(0)

[置顶] Spark2.1.1<SparkSQL中常用四大连接>

环境:Spark 2.1.1 准备工作persons.csv: +----+--------+---------+--------------+--------+ |Id_P|LastName|FirstName| Address| City| +----+--------+---------+--------------+------...
阅读(704) 评论(0)

[置顶] JVM<汇总一个JVM进程中的线程的状态>

1. 首先通过Jps命令查看所有的JVM进程[root@master ~]# jps 23089 HMaster 2357 Worker 2535 NameNode 2999 ResourceManager 49879 Kafka 22938 QuorumPeerMain 2811 SecondaryNameNode 23227 HRegionServer 2269 Master 2637 Data...
阅读(283) 评论(0)

[置顶] JVM<对象的四种引用>

无论是通过引用计数算法判断对象的引用数量,还是通过可达性分析算法判断对象的引 用链是否可达,判定对象是否存活都与“引用”有关。 在JDK 1.2以前,Java中的引用的定义很 传统:如果reference类型的数据中存储的数值代表的是另外一块内存的起始地址,就称这块 内存代表着一个引用。 这种定义很纯粹,但是太过狭隘,一个对象在这种定义下只有被引用 或者没有被引用两种状态,对于如何描述一些“...
阅读(181) 评论(0)

[置顶] Spark2.1.1<spark写入Hbase的三种方法性能对比>

测试条件以下是我的PC信息 依赖: org.apache.spark spark-streaming_2.11 2.1.1 ...
阅读(2493) 评论(0)

[置顶] Spark2.1.1<通俗易懂理解combineByKey-combineByKeyWithClassTag>

combineByKey是Spark中一个比较核心的高级函数, groupByKey,reduceByKey的底层都是使用combineByKey实现的,这是我要弄清楚它的原因1.6.0版的函数名更新为combineByKeyWithClassTagcombineByKey会调用combineByKeyWithClassTag,源码 def combineByKey[C]( creat...
阅读(389) 评论(0)

[置顶] Hadoop2.8.0<Mapreduce模型+shuffle过程>

1.Mapreduce模型 map阶段有一定量的maptask组成,其实就是多线程在处理我们的任务,多个task分布在物理上的多台机器上执行,reduce阶段是由一定数量的reduceTask组成的map阶段: 输入数据格式的解析:inputformat 输入数据的处理:mapper 数组分组:partitioner reduce阶段 从map阶段的输出结果做一个数据拷贝,把对应的数据拷贝大red...
阅读(230) 评论(0)

Ubuntu<使用crontab执行定时爬虫任务>

之前在windows下使用python 脚本调用爬虫程序,做成定时任务的时候,都挺顺利的,以下是代码video_command.py# -*- coding: utf-8 -*- # !/usr/bin/python2.7 import os import time def run_spider(spider_name, folder_name): try: c...
阅读(52) 评论(0)

spark<实现SQL中的GroupBY后取组内TopN>

实现的思路是使用Spark内置函数,combineByKeyWithClassTag函数,借助HashSet的排序,此例是取组内最大的N个元素一下是代码:createcombiner就简单的将首个元素装进HashSet然后返回就可以了;mergevalue插入元素之后,如果元素的个数大于N就删除最小的元素;mergeCombiner在合并之后,如果总的个数大于N,就从一次删除最小的元素,知道Hash...
阅读(59) 评论(0)

Redis4.0.2<Centos上安装redis>

环境:Centos 1708 redis4.0.2 准备:yum install gcc yum install tcl在官网上下载了redis-4.0.2.tar.gz之后,使用tar命令解压 make MALLOC=libc完成之后会发现src目录下多了几个文件(粗体部分) 启动redis服务:至此redis安装成功了...
阅读(113) 评论(0)

Scala<apply的几种用法>

1.只是一个快捷方式首先定义个object:object Greet { def apply(name: String): Unit = { println("Call From %s".format(name)) } } object Main { def main(args: Array[String]): Unit = { Greet.apply("Gpwner")...
阅读(59) 评论(0)

python爬虫<解决URL被重定向无法抓取到数据问题>

在写爱奇艺爬虫的时候经常碰到URL被重定向的问题,导致无法请求到数据:以下是我的代码:# -*- coding: utf-8 -*-import scrapyheaders = { 'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6' }...
阅读(94) 评论(0)

python爬虫<在Pipeline创建数据连接池批量写入MySQL>

以下是连接池的参数说明: def __init__(self, creator, mincached=0, maxcached=0, maxshared=0, maxconnections=0, blocking=False, maxusage=None, setsession=None, reset=True,...
阅读(79) 评论(0)

python爬虫<将scrapy的请求设置为同步>

scrapy的请求是并发进行的,但是我今天有一个需求是要顺序爬网站上的信息,爬的是搜狗热搜榜的电影、电视剧、动漫、综艺的热搜排行榜,每一个爬前三页。顺序爬取下来然后存到数据库中。 我的解决办法是在setting文件中将scrapy的并发数设置为1,当并发数为1的时候不就是同步了嘛# Configure maximum concurrent requests performed by Scrapy...
阅读(136) 评论(0)

Ubuntu17.10<解决安装完网易云音乐无法打开>

在网易云官网上下载好了网易云的Linux版本之后,双击安装包安装完毕,发现不能打开,查了很多资料,最后找到了以下解决办法:在终端以root用户登陆,输入如下指令:netease-cloud-music --no-sandbox %U我的电脑是出现了一下的错误:Unable to locate theme engine in module_path: "adwaita"解决办法是,继续在终端输入以下命...
阅读(1059) 评论(0)

Ubuntu1710<Apt源>

系统初始源:#deb cdrom:[Ubuntu 17.10 _Artful Aardvark_ - Release amd64 (20171018)]/ artful main restricted# See http://help.ubuntu.com/community/UpgradeNotes for how to upgrade to # newer versions of the dis...
阅读(158) 评论(0)

ubuntu17.10<apt-get出现Unable to connect to 127.0.0.1:8888>

之前在安装XX-net的时候无法扫描到IP ,于是就放弃了,没想到之后使用apt-get update命令的时候竟然出错了,定位到应该是xx-net将代理修改了,执行以下命令即可解决问题: export http_proxy=""...
阅读(84) 评论(0)

分割线<秋招结束,接下来的>

从风风火火地从帝都赶回学校,再到风风火火地去签约,2017年09月29日,总算拿到一份不论是从薪资还是工作地点都满意的offer,秋招就此结束吧,接下来要好好复习一下Scala、继续看Java虚拟机、进一步学习机器学习了~~...
阅读(83) 评论(0)

spark<SecurityException: Invalid signature file digest for Manifest main attributes>

driver打包程Jar包提交到集群上之后抛了以下异常: Exception in thread "main" java.lang.SecurityException: Invalid signature file digest for Manifest main attributes at sun.security.util.SignatureFileVerifier.processImp...
阅读(781) 评论(0)

spark<CommunicationsException: Communications link failure>

driver在本地跑的好好的,打包提交打spark集群中却抛了以下异常:Exception in thread "main" com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failureThe last packet sent successfully to the server was 0...
阅读(220) 评论(0)

spark<log4j配置控制台日志级别输出>

如果想要输出INFO级别以上的日志做如下配置,在src/main/resources/下新建一个log4j.properties文件,文件中的内容如下:# Set everything to be logged to the console log4j.rootCategory=INFO,console log4j.appender.console=org.apache.log4j.ConsoleA...
阅读(195) 评论(0)

spark<Dataframe 直接写入hive表>

import org.apache.spark.rdd.RDD import org.apache.spark.sql.hive.HiveContext import org.apache.spark.sql.{DataFrame, SQLContext, SaveMode} import org.apache.spark.{SparkConf, SparkContext}object Main {...
阅读(194) 评论(0)

spark<java.nio.channels.ClosedChannelException>

因为在提交spark任务的时候没有指定节点的内存的大小,采用了默认的配置导致发生了一下的异常: (106 + 45) / 200]17/09/15 10:04:46 ERROR client.TransportClient: Failed to send RPC 7807032932563004737 to dn129.avcdata.com/192.168.20.129:40006: java...
阅读(481) 评论(0)

spark<java.io.NotSerializableException>

我新定义了一个类(tools.UCleaner),放到Spark中做数据清洗的时候,跑了一个任务未序列化的异常Exception in thread "main" org.apache.spark.SparkException: Task not serializable at org.apache.spark.util.ClosureCleaner$.ensureSerializable(...
阅读(277) 评论(0)

python<win10下使用定时任务执行爬虫程序>

公司有一个需求,每天定时执行一次爬虫以便得到目标数据。一下是定时任务的配置过程以及一个大坑(花费了我两个小时)。1.打开任务计划程序2.创建基本任务3.填写触发器出发时间4.定义定时任务的操作为“启动程序”5.选择启动程序 选择你的脚本 这里有一个大坑 别看“起始于”那个参数是可选的,如果不填的话就会报0x2的错误,导致定时任务执行失败: 第一个填写你的脚本的绝对路径+脚本名称, 第二...
阅读(435) 评论(0)

算法<Array Partition I>

这个题目的要求是给定一个数组,有2N个元素,将其划分为N对(每一对有两个元素),使得每一对中的最小的元素相加的总和最大,例如:有一个数组: s=a1+b1+a2+b2+a3+b(3)+…+an+bn;我们的目标是将数组划分诸如: (a1,b1),(a2,b2),(a3,b3),….(an,bn) 然后求: Sm = min(a1, b1) + min(a2, b2) + … + min(an...
阅读(83) 评论(0)

算法<删除一个数组中为0的元素>

题目要求:给一个一维数组,将其中为0的元素删除掉,非零元素的相对位置保持不变,最终目标数组保留在原数组,目标长度之外的元素全部置为0。Given an array nums, write a function to move all 0's to the end of it while maintaining the relative order of the non-zero elements.F...
阅读(135) 评论(0)
182条 共10页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:158405次
    • 积分:3301
    • 等级:
    • 排名:第11307名
    • 原创:176篇
    • 转载:6篇
    • 译文:0篇
    • 评论:24条
    最新评论