自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(74)
  • 收藏
  • 关注

原创 Python 安装mzgeohash包失败,包名冲突

提示无法引用adjacent,原因就很简单啦,init.py里是这样写的,因为之前安装过geohash包,包名冲突了 from geohash import encode, decode, adjacent, neighbors, neighborsfit只需要修改init.py from mzgeohash.geohash import encode, decode, adjacent,...

2018-03-09 22:02:50 1574 1

翻译 使用卷积神经网络来检测卫星图像的特征

http://ataspinar.com/2017/12/04/using-convolutional-neural-networks-to-detect-features-in-sattelite-images/使用卷积神经网络来检测卫星图像的特征1.介绍在之前的博客文章中,我们已经看到了如何在Tensorflow中构建卷积神经网络(CNN),从零开始构建各种CNN架构(如L

2018-01-17 11:39:24 6934 3

原创 Java http请求调用服务

最近一直在做算法模型等等,好久不碰系统开发这套东西,顶多自己做个ETL写个spark,正巧自己准备数据的过程中需要调用服务获得一批数据,难得的非常有趣,代码极其基础简单,记录下来也不错import org.codehaus.jettison.json.JSONObject;import java.io.*;import java.net.URL;import java.net.URLConnec

2017-11-01 14:44:32 1610

原创 spark dataframe 将一列展开,该列所有值都变成新列

The original dataframe需求:hour代表一天的24小时,现在要将hour列展开,每一个小时都作为一个列实现:val pivots = beijingGeoHourPopAfterDrop.groupBy("geoHash").pivot("hour").sum("countGeoPerHour").na.fill(0)并且统计了对应的countGeoPerHour的和,如果有些

2017-09-28 15:43:32 4579

原创 Python 输出JSON对象数组&写入数据到MySQL

准备数据,放到列表中import reinput = open('C:\\Users\\Administrator\\Desktop\\e.txt','r')text=input.read()list = re.split('\n',text)location = []for element in list: location.append([re.split('\|',eleme

2017-09-03 16:59:08 8468

原创 Spark 报错scala.reflect.api.JavaUniverse.runtimeMirror

spark提交任务报错User class threw exception: java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirror(Ljava/lang/ClassLoader;)Lscala/reflect/api/JavaUniverse$JavaMirror;任务中引入的spark对应的Scala版本

2017-09-03 14:49:21 4588

原创 Python 使用folium绘制leaflet地图

安装foliumpip install folium一个小例子import foliuminput = open('C:\\Users\\Administrator\\Desktop\\a.txt','r')text=input.read()list = re.split('\n',text)location = []for element in list: location.app

2017-08-31 11:17:05 11614 2

原创 Spark 修改整列数据类型+写入数据到HDFS

Spark 修改dataset整列数据类型import org.apache.spark.sql.types.IntegerTypegeoans.select(geoans.col("pointNum").cast(IntegerType).as("lat"))写入数据到HDFSa.repartition(3).write.parquet("hdfs://master:9000"+"/data/30

2017-08-27 21:43:31 4896

原创 Spark udf,udaf

udfdef filterTdWithOp(operator: String): Boolean = { val x = ".*中国联通.*" val y = ".*CHN-UNICOM.*" val z = ".*China Unicom.*" if (operator!=null && operator.matches(x + "|" + y + "|" + z)

2017-08-27 21:35:44 1040

原创 maven 打包Scala代码到jar包

mvn clean package默认只处理java源代码的编译,打包,如果此时Scala代码还没有编译生成class,则不会被打入jar包 使用插件,打包前先执行scala:compile,先编译scala<groupId>org.scala-tools</groupId> <artifactId>maven-scala-plugin</artifactId>

2017-08-27 16:43:23 5252

原创 spark 2.1.1访问hive2.3.0

添加jdbc依赖 我试验了6版本和8版本 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.43</version> </dependency>添加spark-hive支持依赖 <depende

2017-08-22 14:03:20 4579

原创 Linux 无法进行域名解析

问题源于我无法使用yum,开始认为是yum源的问题,更换源之后问题依旧 仔细观察错误,发现是域名无法解析,配置了各种DNS问题依旧 修改IP配置文件中BOOTPROTO="dhcp"并注释掉静态IP的配置 域名解析生效 手动在ens33配置文件中增加DNS配置没有作用 还是不理解原因,在继续研究中

2017-08-21 18:05:02 7023

原创 hive 2.3.0配置与部署

配置MySQL安装yum -y install mysql mysql-server mysql-devel启动service mysqld start开机启动chkconfig mysqld on登录mysql -u root初始化密码 mysql中输入use mysql;update user set password=password('root') where user='root';

2017-08-21 11:55:05 1417

原创 Zeppelin 使用JShell实现java解释器,从此用notebook写java

REPL交互式解释器环境 Read(取值)-> Evaluation(求值)-> Print(打印)-> Loop(循环) python,scala都提供原生的REPL ,例如在scala命令行内,键入scala代码,会直接返回结果 既可以作为一个独立的程序运行,也可以包含在其他程序中作为整体程序的一部分使用Zeppelin0.7.2目前不支持java的原因当前spark解释器只支持scala

2017-08-01 09:11:31 2322 1

原创 Java9 正式发布前的尝鲜之下载与配置环境变量

前言本文发布之时,java9还未正式发布,不过许多新特性已经暴露出来,并且提供了Early-Access Builds版本,包含了目前为止完整的各项功能,由于近期项目涉及到了java repl ,而java9正好提供这一新特性,接下来是java9的初次体验,包括下载,配置环境变量,与API文档openjdk上展示了日程,看得激动人心下载java9http://jdk.java.net/包括jdk和j

2017-07-27 20:53:15 12107

原创 Spark 提升spark1.6提交任务速度+配置spark2.x后hiveserver2运行失败

spark提升提交任务速度在spark-defaults.conf中配置一句spark.yarn.jar=hdfs:///lib/spark-assembly-1.6.3-hadoop2.6.0.jar并把jar包上传到配置的位置,可以避免每次提交任务都重新上传 在spark1.6版中,看启动的控制台日志可以发现,每次提交任务到yarn都会从本地上传一遍此jar包配置spark2.x后hivese

2017-07-21 20:39:56 1141

原创 Zeppelin 搭建不是那么简单

1 export SPARK_HOME=/usr/local/spark export HADOOP_CONF_DIR=/usr/local/hadoop2 集成hbase,添加依赖 org.apache.hbase:hbase-client:1.3.1 集成mysql,添加依赖 mysql:mysql-connector-java:5.1.38 3 java.lang.NoSuc

2017-07-21 19:55:52 961

原创 Linux 磁盘扩展添加新分区+常用du

虚拟机存储空间不足了,删了各种日志,还是不够用(毕竟本身设置的总量就太小了),只能选择磁盘扩展+目录分区磁盘扩展添加新分区首先在VMware对硬盘进行磁盘扩展, 此时磁盘空间已经增加,但需要对linux添加新分区才可使用 fdisk -l 显示现有的分区列表(如图最多到sda3,那接下来新增加的应该是sda4了)开始添加新分区 fdisk /dev/sda 输入m查看帮助,依次输入n添加新

2017-07-21 19:39:54 1444

原创 Spark jobServer搭建+提交作业执行

安装scala根据spark版本,在官网下载对应的unix版tar文件 配置环境变量export PATH="$PATH:/usr/scala-2.10.6/bin"立即生效命令source /etc/profile部署sbt配置环境变量export PATH="$PATH:/usr/sbt/"建立启动sbt的脚本文件 在sbt目录下,创建sbt文件#!/bin/bashSBT_OPTS="-

2017-07-18 22:53:50 2597

原创 WebSocket 实时更新mysql数据到页面

使用websocket的初衷是,要实时更新mysql中的报警信息到web页面显示 没怎么碰过web,代码写的是真烂,不过也算是功能实现了,放在这里也是鞭策自己,web也要多下些功夫准备工作先看看mysql中数据的格式数据封装public class AlarmMessage { private String fanNo; private String time; priva

2017-07-18 15:16:40 16807 7

原创 Storm JDBC插入数据到数据库

storm jdbc添加依赖 <dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-jdbc</artifactId> <version>${storm.v

2017-07-17 08:12:40 2211

原创 mysql linux下mysql取消区分大小写

1 ROOT登录,修改/etc/my.cnf 在[mysqld]下加入一行:lower_case_table_names=1(注意位置) 2 重新启动数据库 启动/关闭 命令 service mysqld start/stop查看lower_case_table_names的值,0代表区分,1代表不区分show Variables like '%table_names'另外,建表时不加

2017-07-16 15:09:19 1864 1

原创 tomcat 提交war任务及idea配置tomcat

提交运行直接把war包放入webapps下,不需要进行其他配置,tomcat启动时会自动执行# ./bin/startup.sh 启动tomcat# tail -f ./logs/catalina.out 查看tomcat日志及部署的war程序的日志查看相关内容web页面进入8080端口(可以在server.xml 可以修改服务器启动端口号)选择 manager app 需要提供账号密码,在to

2017-07-16 14:58:51 645

原创 kafka flume生产日志到指定的kafka partition

Flume+Kafka集成,将不同级别的日志生产到Kafka Topic不同的Partition中conf文件#Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sources.r1.type = spool

2017-07-10 00:46:35 2332

原创 Spark ML机器学习算法svm,als,线性回归,逻辑回归简单试验

线性回归导入训练集数据,将其解析为带label的RDD,然后使用LinearRegressionWithSGD 建立一个简单的线性模型预测label的值,最后计算了均方差来评估预测值与实际值的吻合度object LinearRegressionModelDemo { def main(args: Array[String]): Unit = {

2017-07-09 22:56:31 1674

原创 数据挖掘 h2o python随机森林

train.csv为训练数据集,该数据集是驾驶员行为识别聚类结果经处理后的数据。其中driver,trip这2列在构 建模型时没有用, Catrgory为类别标签,其余变量为有意义的特征0 数据集的样子(没有截全,重点看catalog就好,是我们要预测的值) 使用H2oFrame构建模型用全部的特征构建模型并预测,并计算准确度 利用train.csv中的数据,通过H2O框架中的随机森林算法构建分

2017-07-01 14:15:22 3969 1

原创 Spark ML随机森林

0 原数据集的模样No,year,month,day,hour,pm,DEWP,TEMP,PRES,cbwd,Iws,Is,Ir1,2010,1,1,0,NaN,-21.0,-11.0,1021.0,NW,1.79,0.0,0.02,2010,1,1,1,NaN,-21,-12,1020,NW,4.92,0,03,2010,1,1,2,NaN,-21,-11,1019,NW,6.71

2017-07-01 13:22:58 3593 1

原创 Hive 与 Hbase的不同之处

Hive可以看作是用户编程接口(能执行MapReduce作业的类SQL编程接口),它本身不存储和计算数据 它依赖于HDFS和MapReduce,对HDFS的操作类似于SQL—名为HQL,HQL经过编译转为MapReduce作业 Hbase 运行于HDFS顶层的NoSQL(=Not Only SQL,非关系型数据库)数据库系统 区别于Hive,HBase具备随即读写功能,是一种面向列的数据库Hi

2017-06-30 20:26:33 551

原创 Spark Streaming接收kafka数据,输出到HBase

需求Kafka + SparkStreaming + SparkSQL + HBase 输出TOP5的排名结果 排名作为Rowkey,word和count作为Column实现

2017-06-24 15:55:52 15841 7

原创 Spark RDD算子/SparkSQL分别实现对电影数据集的简单数据分析

数据集:MovieLens 1M Dataset users.dat UserID::Gender::Age::Occupation::Zip-code movies.dat MovieID::Title::Genres ratings.dat UserID::MovieID::Rating::Timestamp 1.年龄段在“18-24”的男性年轻人,最喜欢看哪10部

2017-06-22 00:01:16 2672

原创 Spark RDD进行艺术家数据集清洗

1 artist_data.txt 文件中包含艺术家的ID 和名字,它们用制表符“\t”分割,但是尝试简单的把文件解析成二元组(Int, String) 会出错,用spark transformation 算子简单处理数据,过滤掉会产生异常的数据,返回元组(Int, String),并在结果RDD 中查找到ID 为2093760艺术家的名字。原始数据的模样关键代码v

2017-06-14 23:38:28 2048

原创 Scala 几种集合连接方法注意区分

:: 该方法被称为cons(构造),向队列的头部追加数据,创造新的列表。无论x是列表与否,它都只将成为新生成列表的第一个元素,也就是说新生成的列表长度为list的长度+1 val list=List(1,2,3) val newlist=4::list val new2=list.::(4)//和上面等价// val newlist=list::4 //会报错,提示value

2017-06-13 11:00:12 1275

原创 Flink Yarn配置

需要配置YARN_CONF_DIR 或 HADOOP_CONF_DIR环境变量启动一个YARN session(Start a long-running Flink cluster on YARN) 然后便可以向集群提交作业。同一个Session中可以提交多个Flink作业./bin/yarn-session.sh -n 2 -tm 1024 -s 2上面命令启动了2个TaskManager,每个

2017-06-11 23:51:01 2156

原创 Flink 集群模式部署

配置主节点jobmanager.rpc.address: masterjobmanager.heap.mb和taskmanager.heap.mb可以配置JVM分配给各节点的内存大小,单位MBslaves配置Worker节点slave1slave2启动集群bin/start-cluster.sh停止集群stop-cluster.sh对运行中的集群进行添加/删除JobManager操作bin/job

2017-06-11 22:28:10 968

原创 Flink local模式运行SocketWordcount

local模式启动flink./bin/start-local.sh查看启动日志tail log/flink-*-jobmanager-*.log启动netcat作为本地服务器生产数据nc -l 9000提交flink程序,该程序会连接socket,等待输入数据./bin/flink run examples/streaming/SocketWindowWordCount.jar --port 90

2017-06-11 21:52:36 3128

原创 Spark local/standalone/yarn/远程调试-运行WordCount

local直接启动spark-shell./spark-shell --master local[*]编写scala代码sc.textFile("/input/file01.txt")res0.cache()res0.countval wd=res0.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_)wd.collect.foreach(pr

2017-06-11 19:36:36 1546

原创 Storm 时间滑动窗口+topN+Hbase

需求wordcount使用滑动时间窗口,每10秒计算过去30秒的单词个数。并在该时间窗口排出TOP5,存入HBase中(排名作为Rowkey,word与count作为Column)实现过程自定义Function切割字符串 public static class Split extends BaseFunction { @Override public

2017-06-09 22:46:10 1752

原创 scala小练习四

1.一千万个随机数,随机数范围在1到1亿之间,现在要求写出一种算法,将1到1亿之间没有出现的随机数求出来 第一题看这里2 编 写 一 个 函 数 , 接 收 一 个 字 符 串 集 合 , 以 及 一 个 从 字 符 串 到 整 数 的 映 射 ,返回整数集合,其值为能和集合中某个字符串相应的映射值。举例来说,给Array(“Tom”,”Fred”,”Harry”) 和Map(“Tom”->3,

2017-06-08 11:30:54 1464

原创 scala小练习三

关键代码+运行截图1.编写函数values(fun(Int)=>Int, low:Int,high: Int)该函数输出一个集合,对应给定区间 内给定函数的输入和输出。比如values(x=>x*x,-5,5) 应该产生集合(-5,25) (-4,16) ….def values(fun:(Int)=>Int,low:Int,high:Int):List[(Int,Int)]={ var

2017-06-07 20:12:49 2100

原创 scala BitSet实现算法:一千万个随机数,随机数范围在1到1亿之间,现在要求写出一种算法,将1到1亿之间没有出现的随机数求出来

闲话跟BitSet缠了好几天,书上介绍的甚少,过了好几遍文档,和java的BitSet相比,可以像Set一样地操纵的设计更合理,但总觉得少了很多有用的方法,和其他Set相比,可能大数据量时效率提升明显,但使用者很难接触到底层的结构(java的BitSet并没有这样),很难作用最大化,曾无数次给我一种用了假的BitSet的感觉,所以说的不对的,还请大家不吝赐教!从实例出发实现算法:一千万个随机数,随机

2017-06-07 19:46:52 2929

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除