Nougats-CSDN博客

原创 Python 安装mzgeohash包失败，包名冲突

提示无法引用adjacent，原因就很简单啦，init.py里是这样写的，因为之前安装过geohash包，包名冲突了 from geohash import encode, decode, adjacent, neighbors, neighborsfit只需要修改init.py from mzgeohash.geohash import encode, decode, adjacent,...

2018-03-09 22:02:50 1574 1

翻译使用卷积神经网络来检测卫星图像的特征

http://ataspinar.com/2017/12/04/using-convolutional-neural-networks-to-detect-features-in-sattelite-images/使用卷积神经网络来检测卫星图像的特征1.介绍在之前的博客文章中，我们已经看到了如何在Tensorflow中构建卷积神经网络（CNN），从零开始构建各种CNN架构（如L

2018-01-17 11:39:24 6934 3

原创 Java http请求调用服务

最近一直在做算法模型等等，好久不碰系统开发这套东西，顶多自己做个ETL写个spark，正巧自己准备数据的过程中需要调用服务获得一批数据，难得的非常有趣，代码极其基础简单，记录下来也不错import org.codehaus.jettison.json.JSONObject;import java.io.*;import java.net.URL;import java.net.URLConnec

2017-11-01 14:44:32 1610

原创 spark dataframe 将一列展开，该列所有值都变成新列

The original dataframe需求：hour代表一天的24小时，现在要将hour列展开，每一个小时都作为一个列实现：val pivots = beijingGeoHourPopAfterDrop.groupBy("geoHash").pivot("hour").sum("countGeoPerHour").na.fill(0)并且统计了对应的countGeoPerHour的和，如果有些

2017-09-28 15:43:32 4579

原创 Python 输出JSON对象数组&写入数据到MySQL

准备数据，放到列表中import reinput = open('C:\\Users\\Administrator\\Desktop\\e.txt','r')text=input.read()list = re.split('\n',text)location = []for element in list: location.append([re.split('\|',eleme

2017-09-03 16:59:08 8468

原创 Spark 报错scala.reflect.api.JavaUniverse.runtimeMirror

spark提交任务报错User class threw exception: java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirror(Ljava/lang/ClassLoader;)Lscala/reflect/api/JavaUniverse$JavaMirror;任务中引入的spark对应的Scala版本

2017-09-03 14:49:21 4588

原创 Python 使用folium绘制leaflet地图

安装foliumpip install folium一个小例子import foliuminput = open('C:\\Users\\Administrator\\Desktop\\a.txt','r')text=input.read()list = re.split('\n',text)location = []for element in list: location.app

2017-08-31 11:17:05 11614 2

原创 Spark 修改整列数据类型+写入数据到HDFS

Spark 修改dataset整列数据类型import org.apache.spark.sql.types.IntegerTypegeoans.select(geoans.col("pointNum").cast(IntegerType).as("lat"))写入数据到HDFSa.repartition(3).write.parquet("hdfs://master:9000"+"/data/30

2017-08-27 21:43:31 4896

原创 Spark udf,udaf

udfdef filterTdWithOp(operator: String): Boolean = { val x = ".*中国联通.*" val y = ".*CHN-UNICOM.*" val z = ".*China Unicom.*" if (operator!=null && operator.matches(x + "|" + y + "|" + z)

2017-08-27 21:35:44 1040

原创 maven 打包Scala代码到jar包

mvn clean package默认只处理java源代码的编译，打包，如果此时Scala代码还没有编译生成class，则不会被打入jar包使用插件，打包前先执行scala:compile，先编译scala<groupId>org.scala-tools</groupId> <artifactId>maven-scala-plugin</artifactId>

2017-08-27 16:43:23 5252

原创 spark 2.1.1访问hive2.3.0

添加jdbc依赖我试验了6版本和8版本 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.43</version> </dependency>添加spark-hive支持依赖 <depende

2017-08-22 14:03:20 4579

原创 Linux 无法进行域名解析

问题源于我无法使用yum，开始认为是yum源的问题，更换源之后问题依旧仔细观察错误，发现是域名无法解析，配置了各种DNS问题依旧修改IP配置文件中BOOTPROTO="dhcp"并注释掉静态IP的配置域名解析生效手动在ens33配置文件中增加DNS配置没有作用还是不理解原因，在继续研究中

2017-08-21 18:05:02 7023

原创 hive 2.3.0配置与部署

配置MySQL安装yum -y install mysql mysql-server mysql-devel启动service mysqld start开机启动chkconfig mysqld on登录mysql -u root初始化密码 mysql中输入use mysql;update user set password=password('root') where user='root';

2017-08-21 11:55:05 1417

原创 Zeppelin 使用JShell实现java解释器，从此用notebook写java

REPL交互式解释器环境 Read（取值）-> Evaluation（求值）-> Print（打印）-> Loop（循环） python，scala都提供原生的REPL ，例如在scala命令行内，键入scala代码，会直接返回结果既可以作为一个独立的程序运行，也可以包含在其他程序中作为整体程序的一部分使用Zeppelin0.7.2目前不支持java的原因当前spark解释器只支持scala

2017-08-01 09:11:31 2322 1

原创 Java9 正式发布前的尝鲜之下载与配置环境变量

前言本文发布之时，java9还未正式发布，不过许多新特性已经暴露出来，并且提供了Early-Access Builds版本，包含了目前为止完整的各项功能，由于近期项目涉及到了java repl ，而java9正好提供这一新特性，接下来是java9的初次体验，包括下载，配置环境变量，与API文档openjdk上展示了日程，看得激动人心下载java9http://jdk.java.net/包括jdk和j

2017-07-27 20:53:15 12107

原创 Spark 提升spark1.6提交任务速度+配置spark2.x后hiveserver2运行失败

spark提升提交任务速度在spark-defaults.conf中配置一句spark.yarn.jar=hdfs:///lib/spark-assembly-1.6.3-hadoop2.6.0.jar并把jar包上传到配置的位置，可以避免每次提交任务都重新上传在spark1.6版中，看启动的控制台日志可以发现，每次提交任务到yarn都会从本地上传一遍此jar包配置spark2.x后hivese

2017-07-21 20:39:56 1141

原创 Zeppelin 搭建不是那么简单

1 export SPARK_HOME=/usr/local/spark export HADOOP_CONF_DIR=/usr/local/hadoop2 集成hbase，添加依赖 org.apache.hbase:hbase-client:1.3.1 集成mysql，添加依赖 mysql:mysql-connector-java:5.1.38 3 java.lang.NoSuc

2017-07-21 19:55:52 961

原创 Linux 磁盘扩展添加新分区+常用du

虚拟机存储空间不足了，删了各种日志，还是不够用（毕竟本身设置的总量就太小了），只能选择磁盘扩展+目录分区磁盘扩展添加新分区首先在VMware对硬盘进行磁盘扩展，此时磁盘空间已经增加，但需要对linux添加新分区才可使用 fdisk -l 显示现有的分区列表（如图最多到sda3，那接下来新增加的应该是sda4了）开始添加新分区 fdisk /dev/sda 输入m查看帮助，依次输入n添加新

2017-07-21 19:39:54 1444

原创 Spark jobServer搭建+提交作业执行

安装scala根据spark版本，在官网下载对应的unix版tar文件配置环境变量export PATH="$PATH:/usr/scala-2.10.6/bin"立即生效命令source /etc/profile部署sbt配置环境变量export PATH="$PATH:/usr/sbt/"建立启动sbt的脚本文件在sbt目录下，创建sbt文件#!/bin/bashSBT_OPTS="-

2017-07-18 22:53:50 2597

原创 WebSocket 实时更新mysql数据到页面

使用websocket的初衷是，要实时更新mysql中的报警信息到web页面显示没怎么碰过web，代码写的是真烂，不过也算是功能实现了，放在这里也是鞭策自己，web也要多下些功夫准备工作先看看mysql中数据的格式数据封装public class AlarmMessage { private String fanNo; private String time; priva

2017-07-18 15:16:40 16807 7

原创 Storm JDBC插入数据到数据库

storm jdbc添加依赖 <dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-jdbc</artifactId> <version>${storm.v

2017-07-17 08:12:40 2211

原创 mysql linux下mysql取消区分大小写

1 ROOT登录，修改/etc/my.cnf 在[mysqld]下加入一行：lower_case_table_names=1（注意位置） 2 重新启动数据库启动/关闭命令 service mysqld start/stop查看lower_case_table_names的值，0代表区分，1代表不区分show Variables like '%table_names'另外，建表时不加

2017-07-16 15:09:19 1864 1

原创 tomcat 提交war任务及idea配置tomcat

提交运行直接把war包放入webapps下，不需要进行其他配置，tomcat启动时会自动执行# ./bin/startup.sh 启动tomcat# tail -f ./logs/catalina.out 查看tomcat日志及部署的war程序的日志查看相关内容web页面进入8080端口（可以在server.xml 可以修改服务器启动端口号）选择 manager app 需要提供账号密码，在to

2017-07-16 14:58:51 645

原创 kafka flume生产日志到指定的kafka partition

Flume+Kafka集成，将不同级别的日志生产到Kafka Topic不同的Partition中conf文件#Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sources.r1.type = spool

2017-07-10 00:46:35 2332

原创 Spark ML机器学习算法svm，als，线性回归，逻辑回归简单试验

线性回归导入训练集数据，将其解析为带label的RDD，然后使用LinearRegressionWithSGD 建立一个简单的线性模型预测label的值，最后计算了均方差来评估预测值与实际值的吻合度object LinearRegressionModelDemo { def main(args: Array[String]): Unit = {

2017-07-09 22:56:31 1674

原创数据挖掘 h2o python随机森林

train.csv为训练数据集，该数据集是驾驶员行为识别聚类结果经处理后的数据。其中driver，trip这2列在构建模型时没有用， Catrgory为类别标签，其余变量为有意义的特征0 数据集的样子（没有截全，重点看catalog就好，是我们要预测的值）使用H2oFrame构建模型用全部的特征构建模型并预测，并计算准确度利用train.csv中的数据，通过H2O框架中的随机森林算法构建分

2017-07-01 14:15:22 3969 1

原创 Spark ML随机森林

0 原数据集的模样No,year,month,day,hour,pm,DEWP,TEMP,PRES,cbwd,Iws,Is,Ir1,2010,1,1,0,NaN,-21.0,-11.0,1021.0,NW,1.79,0.0,0.02,2010,1,1,1,NaN,-21,-12,1020,NW,4.92,0,03,2010,1,1,2,NaN,-21,-11,1019,NW,6.71

2017-07-01 13:22:58 3593 1

原创 Hive 与 Hbase的不同之处

Hive可以看作是用户编程接口(能执行MapReduce作业的类SQL编程接口)，它本身不存储和计算数据它依赖于HDFS和MapReduce，对HDFS的操作类似于SQL—名为HQL，HQL经过编译转为MapReduce作业 Hbase 运行于HDFS顶层的NoSQL(=Not Only SQL，非关系型数据库)数据库系统区别于Hive，HBase具备随即读写功能，是一种面向列的数据库Hi

2017-06-30 20:26:33 551

原创 Spark Streaming接收kafka数据，输出到HBase

需求Kafka + SparkStreaming + SparkSQL + HBase 输出TOP5的排名结果排名作为Rowkey，word和count作为Column实现

2017-06-24 15:55:52 15841 7

原创 Spark RDD算子/SparkSQL分别实现对电影数据集的简单数据分析

数据集：MovieLens 1M Dataset users.dat UserID::Gender::Age::Occupation::Zip-code movies.dat MovieID::Title::Genres ratings.dat UserID::MovieID::Rating::Timestamp 1.年龄段在“18-24”的男性年轻人，最喜欢看哪10部

2017-06-22 00:01:16 2672

原创 Spark RDD进行艺术家数据集清洗

1 artist_data.txt 文件中包含艺术家的ID 和名字，它们用制表符“\t”分割,但是尝试简单的把文件解析成二元组(Int, String) 会出错,用spark transformation 算子简单处理数据，过滤掉会产生异常的数据，返回元组(Int, String)，并在结果RDD 中查找到ID 为2093760艺术家的名字。原始数据的模样关键代码v

2017-06-14 23:38:28 2048

原创 Scala 几种集合连接方法注意区分

:: 该方法被称为cons（构造），向队列的头部追加数据，创造新的列表。无论x是列表与否，它都只将成为新生成列表的第一个元素，也就是说新生成的列表长度为list的长度＋1 val list=List(1,2,3) val newlist=4::list val new2=list.::(4)//和上面等价// val newlist=list::4 //会报错，提示value

2017-06-13 11:00:12 1275

原创 Flink Yarn配置

需要配置YARN_CONF_DIR 或 HADOOP_CONF_DIR环境变量启动一个YARN session(Start a long-running Flink cluster on YARN) 然后便可以向集群提交作业。同一个Session中可以提交多个Flink作业./bin/yarn-session.sh -n 2 -tm 1024 -s 2上面命令启动了2个TaskManager，每个

2017-06-11 23:51:01 2156

原创 Flink 集群模式部署

配置主节点jobmanager.rpc.address: masterjobmanager.heap.mb和taskmanager.heap.mb可以配置JVM分配给各节点的内存大小，单位MBslaves配置Worker节点slave1slave2启动集群bin/start-cluster.sh停止集群stop-cluster.sh对运行中的集群进行添加/删除JobManager操作bin/job

2017-06-11 22:28:10 968

原创 Flink local模式运行SocketWordcount

local模式启动flink./bin/start-local.sh查看启动日志tail log/flink-*-jobmanager-*.log启动netcat作为本地服务器生产数据nc -l 9000提交flink程序，该程序会连接socket，等待输入数据./bin/flink run examples/streaming/SocketWindowWordCount.jar --port 90

2017-06-11 21:52:36 3128

原创 Spark local/standalone/yarn/远程调试-运行WordCount

local直接启动spark-shell./spark-shell --master local[*]编写scala代码sc.textFile("/input/file01.txt")res0.cache()res0.countval wd=res0.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_)wd.collect.foreach(pr

2017-06-11 19:36:36 1546

原创 Storm 时间滑动窗口+topN+Hbase

需求wordcount使用滑动时间窗口，每10秒计算过去30秒的单词个数。并在该时间窗口排出TOP5，存入HBase中（排名作为Rowkey，word与count作为Column）实现过程自定义Function切割字符串 public static class Split extends BaseFunction { @Override public

2017-06-09 22:46:10 1752

原创 scala小练习四

1.一千万个随机数，随机数范围在1到1亿之间，现在要求写出一种算法，将1到1亿之间没有出现的随机数求出来第一题看这里2 编写一个函数，接收一个字符串集合，以及一个从字符串到整数的映射，返回整数集合，其值为能和集合中某个字符串相应的映射值。举例来说，给Array(“Tom”,”Fred”,”Harry”) 和Map(“Tom”->3,

2017-06-08 11:30:54 1464

原创 scala小练习三

关键代码+运行截图1.编写函数values(fun（Int）=>Int, low：Int，high: Int)该函数输出一个集合，对应给定区间内给定函数的输入和输出。比如values(x=>x*x,-5,5) 应该产生集合(-5,25) (-4,16) ….def values(fun:(Int)=>Int,low:Int,high:Int):List[(Int,Int)]={ var

2017-06-07 20:12:49 2100

原创 scala BitSet实现算法：一千万个随机数，随机数范围在1到1亿之间，现在要求写出一种算法，将1到1亿之间没有出现的随机数求出来

闲话跟BitSet缠了好几天，书上介绍的甚少，过了好几遍文档，和java的BitSet相比，可以像Set一样地操纵的设计更合理，但总觉得少了很多有用的方法，和其他Set相比，可能大数据量时效率提升明显，但使用者很难接触到底层的结构（java的BitSet并没有这样），很难作用最大化，曾无数次给我一种用了假的BitSet的感觉，所以说的不对的，还请大家不吝赐教！从实例出发实现算法：一千万个随机数，随机

2017-06-07 19:46:52 2929

空空如也

空空如也