自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 收藏
  • 关注

原创 将json字符串转化为json对象https://elasticsearch.cn/question/3902

import com.google.gson.Gsonimport com.alibaba.fastjson.{JSON, JSONObject}import java.utilobject local { case class User1(id: Long,organization_id: Long,username: String ,role_names: String ,...

2018-10-20 15:37:21 396

原创 https://stackoverflow.com/questions/46895441/error-yarn-applicationmaster-uncaught-exception-java-ut

package bigdata.spark.SparkStreaming.kafka010import org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.streaming.kafka010.{KafkaUtils, LocationStrategies, OffsetRange}...

2018-10-14 09:52:34 1113

原创 5555

Logged in as: dr.who Logs for container_1540265434662_0001_02_000001ResourceManagerRM HomeNodeManagerToolsSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:...

2018-10-14 09:51:48 934

原创 444

package bigdata.spark.SparkStreaming.kafka082import java.sql.Timestampimport bigdata.spark.DaoUtil.MysqlUtilimport kafka.common.TopicAndPartitionimport kafka.message.MessageAndMetadataimport k...

2018-10-14 09:50:50 292

原创 3333

package bigdata.spark.SparkStreaming.kafka010import org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka010.{ConsumerSt...

2018-10-14 09:50:19 2285

原创 222

package bigdata.spark.SparkStreaming.kafka010;import net.sf.json.JSONObject;import org.apache.kafka.clients.producer.Producer;import org.apache.kafka.clients.producer.ProducerConfig;import org.a...

2018-10-14 09:49:42 212

原创 1111

 package bigdata.spark.SparkStreaming.kafka010import java.util.Propertiesimport org.apache.kafka.clients.consumer.{Consumer, KafkaConsumer}import org.apache.kafka.common.TopicPartitionimport ...

2018-10-14 09:31:56 162

原创 Scala io操作

1. 读文件scala特有的是scala.io.Source,例如: import scala.io._ Source.fromFile(“cn.scala”,”utf8”).mkString逐行读文件内容: Source.fromFile(new java.io.File(“cn.scala”)).getLines().foreach(println)2. 写文件im...

2018-07-23 10:48:39 296

原创 机器学习概览

学习hands_on_Ml_with_Sklearn_and_TF的感悟1.机器学习概览机器学习有多种类型,可以根据如下规则进行分类:是否在人类监督下进行训练(监督,非监督,半监督和强化学习)是否可以动态渐进学习(在线学习 vs 批量学习)它们是否只是通过简单地比较新的数据点和已知的数据点,或者在训练数据中进行模式识别,以建立一个预测模型,就...

2018-05-23 17:20:29 359

转载 pandas(数据框部分04)

上一期我们使用pandas模块实现频数统计、缺失值处理、数据映射和数据汇总 4个知识点,这期我们再来聊聊关于pandas如何实现数据合并 、数据连接 、创建哑变量和连续数值的区间化的操作。前两个操作在数据库中是非常常用的,即将多个数据集纵向合并和横向的扩展;后两个操作在数据建模中会经常用到,即离散变量的哑变量化处理和连续变量的分段处理。一、数据集的纵向合并如果你手中有多张数据结构一致的excel表...

2018-05-02 14:57:15 269

转载 pandas(数据框部分03)

上一期我们使用pandas模块实现观测的筛选、变量的重命名、数据类型的变换、排序、重复观测的删除、和数据集的抽样,这期我们继续介绍pandas模块的其他新知识点。包括频数统计、缺失值处理、数据映射、数据汇总。一、频数统计 我们以被调查用户的收入数据为例,来谈谈频数统计函数value_counts。频数统计,顾名思义就是统计某个离散变量各水平的频次。这里统计的是性别男女的人数,是一个绝对值,如果想进...

2018-05-02 10:41:22 308

转载 pandas(数据框部分02)

接着上一期的pandas模块介绍与应用,今天我们来聊聊如何借助于pandas模块进行数据的预处理,内容包括数据集变量与观测的筛选、变量的重命名、数据类型的变换、排序、重复观测的删除、和数据集的抽样。一、数据筛选以iris数据集为例,想从数据集中取出某列(序列对象)或某几列该如何操作?在pandas取出一列有两种方法,一种是比较普遍适用的名称索引法,另一种则是点取法。看看下面的例子就可以理解了:如果...

2018-04-27 14:43:56 325

转载 pandas(数据框部分01)

作为从事数据相关工作的我们,平时接触的更多的是一张有板有眼的数据表格,在这里我们就叫作数据框。在Python中可以通过pandas模块的DataFrame函数构造数据框,而R语言则是data.frame创建数据框。接下来我们将对比Python和R语言如下几个方面的应用:1、数据框的构造在Python中,可以借助于列表、元组、字典进行手工构建数据框,我们用例子说明:通过列表创建数据框发现,这样创建数...

2018-04-27 10:41:45 277

转载 利用Python读取外部数据文件

不论是数据分析,数据可视化,还是数据挖掘,一切的一切全都是以数据作为最基础的元素。利用Python进行数据分析,同样最重要的一步就是如何将数据导入到Python中,然后才可以实现后面的数据分析、数据可视化、数据挖掘等。在本期的Python学习中,我们将针对Python如何获取外部数据做一个详细的介绍,从中我们将会学习以下4个方面的数据获取:1、读取文本文件的数据,如txt文件和csv文件2、读取电...

2018-04-25 10:20:35 1361

转载 手把手教你完成半结构化数据的处理

前言      现在越来越多的数据以json的格式进行存储,例如通过网络爬虫时,那些异步存储的数据往往都是json类型的;再如企业数据库中的日志数据,也会以json的格式存放。前不久,一位网友就碰到了这个问题,手中Excel存储的数据并不是标准化的结构数据,而是以json格式存储在Excel的每个单元格。那今天我们就来聊聊如何利用Python将半结构化的json数据转换成结构化数据。简单的json...

2018-04-25 09:14:27 7433

原创 填充数据的平均值

今天在群里看到这样的一个问题就是缺失的值要是每个ID的对应time的平均值1、创建矩阵然后使用fillna和transform方法进行填充大功告成

2018-04-23 16:32:36 2782

原创 pandas入门

这些是pandas最基本的操作和我自己的理解In [1]: import pandas as pd In [2]: import numpy as np In [3]: import matplotlib.pyplot as plt 创建对象使用传递的值列表序列创建序列, 让pandas创建默认整数索引12345678910 In [4]: s = pd.Series([1,3,5,np.nan,...

2018-04-20 16:31:04 191

转载 python merge、concat合并数据集

数据规整化:合并、清理、过滤pandas和python标准库提供了一整套高级、灵活的、高效的核心函数和算法将数据规整化为你想要的形式!本篇博客主要介绍:合并数据集:.merge()、.concat()等方法,类似于SQL或其他关系型数据库的连接操作。合并数据集1) merge 函数参数参数说明left参与合并的左侧DataFrameright参与合并的右侧DataFramehow连接方式:‘inn...

2018-04-20 15:08:30 543

原创 数组的合并

合并数组使用numpy下的vstack(垂直方向)和hstack(水平方向)函数:12345678910>>> a = np.ones((2,2))  >>> b = np.eye(2)  >>> print np.vstack((a,b))  [[ 1.  1.]    [ 1.  1.]

2018-04-19 09:26:16 138

原创 numpy数组属性的获取

>>> a = np.zeros((2,2,2))  >>> print a.ndim   #数组的维数  3   >>> print a.shape  #数组每一维的大小  (2, 2, 2)   >>> print a.size   #数组的元素数  8   >>> print a.dtype  #元素类型  float64   >>

2018-04-19 09:23:14 764

原创 numpy--的split

numpy.split numpy.split(ary,indices_or_sections,axis = 0 )[source]将数组拆分为多个子数组。参数:ary:ndarray数组被分成子数组。indices_or_sections:int或1-D数组如果indices_or_sections是一个整数N,则该数组将沿着轴被分成N个相等的数组。如果这种分裂是不可能的,则会引发错误。如果in...

2018-04-17 10:50:52 471

转载 NumPy的详细教程(官网手册翻译)

先决条件在阅读这个教程之前,你多少需要知道点Python。如果你想从新回忆下,请看看Python Tutorial.如果你想要运行教程中的示例,你至少需要在你的电脑上安装了以下一些软件:PythonNumPy这些是可能对你有帮助的:ipython是一个净强化的交互Python Shell,对探索NumPy的特性非常方便。matplotlib将允许你绘图Scipy在NumPy的基础上提供了很多科学模...

2018-04-17 09:42:50 178

原创 嵌入函数创建numpy.ndarray

最近在看numpy的官方文档,看到这个地方有些迷糊。原来函数f里面的x和y是根据每一个元素的坐标位置得到的如  数据b的第一个元素是0 且他的坐标是[0,0] 所以f函数的x和y就是0,0  f函数最后输出的也是0    元素的2的坐标是[0,2] 所以x和y就是0和2  f函数最后输出2...

2018-04-16 11:22:07 235

转载 ImportError: No module named matplotlib.pyplot安装模块python

原文:https://my.oschina.net/letiantian/blog/339901http://www.cnblogs.com/sincoolvip/p/5966696.html环境:ubuntu 14.04, 32BitPython 2.7Python 2.7 IDE用上面的环境,测试一个曲线拟合的demo测试的时候,运行出错,原因是我的py

2018-03-09 10:01:02 788

原创 实现contains功能

##包含写法s = "This be a string"if s.find("is") == -1:    print "No 'is' here!"else:    print "Found 'is' in the string."   ##也可以用append函数把内容加载到数组中去##非包含写法s = "This be a string"if s.find("is") == -1: 

2018-03-07 10:21:33 643

原创 配置集群ssh免密码登录

1、首先在三台机器上配置对本机的ssh免密码登录生成本机的公钥,过程中不断敲回车即可,ssh-keygen命令默认会将公钥放在/root/.ssh目录下ssh-keygen -t rsa将公钥复制为authorized_keys文件,此时使用ssh连接本机就不需要输入密码了cd /root/.sshcp id_rsa.pub authorized_keys

2017-05-29 09:23:51 287

原创 配置yum源服务器

1、修改repo使用WinSCP(网上很多,自己下一个),将Centos-6.repo上传到CentOS中的/usr/local云盘地址  这里我用的是阿里云的yum源(http://pan.baidu.com/s/1ctQLw6) 目录下cd /etc/yum.repos.d/rm -rf *mv 自己的repo文件移动到/etc/yum.repos.d/目录中:cp

2017-05-29 09:18:17 290

原创 scala 实现topN算法

[sql] view plain copytopN算法  基础topN  分组topN      --基础topN    --aaa.txt  4  2  5  9  7  1  6  4  7    把这些字符转换成map(x=>(x.toInt,x)),利用int类型的比较进行排序。    package co

2017-05-23 18:03:59 1002

原创 如何对Scala中集合进行排序

scala> val l = List(5,4,3,6,2,1)l: List[Int] = List(5, 4, 3, 6, 2, 1)scala> l.sortedres2: List[Int] = List(1, 2, 3, 4, 5, 6)scala> l.sorted(Ordering.Int.reverse)res3: List[Int] = List(6, 5, 4, 3, 2, 1

2017-05-23 17:55:10 1689

原创 scala循环判断

import scala.utll.control.Breaks._           (导入breaks模块)for( i if(i == 4) breakprintln(i)}当i=4的时候跳出循环       这样输出结果只能是1、2、3。

2016-11-12 10:36:20 205

原创 sum函数求和

def sum(numbers : Int*) ={ var result =0; for(element 调用这个函数sum(1,2,3,4,5,6)最终会让集合里的数相加      下面延伸一个比较重要的概念上面因为我们传入的是1到5的和,那么我们要计算1到100的和呢?我们可以使用这个语法:sum(1 to 100: _*)   : _

2016-11-12 10:33:43 3252

原创 scala查看本地文件以及查看网页源码

import scala.io.Sourceobject proce {   def main(args: Array[String]) {    val file = Source.fromFile("D:\\test.txt")         //打印出本机文件内容   //val file = Source.fromURL("http://spark.apache.

2016-11-11 15:27:04 521

原创 scala的元组和数组

object ArrayMap {   def main(args: Array[String]) {//    val pair = (100,"Spark","Scala")//    println(pair._1)//    println(pair._2)             }                                        

2016-11-11 15:25:56 373

原创 scala的函数定义、流程控制和异常处理

object scala {  //  def looper(x : Long, y : Long) : Long = {//    var a = x//    var b = y//    while(a != 0){//      val temp = a//      a = b % a//      b = temp//    }//    b

2016-11-10 17:12:28 161

原创 Scala数组

val arr = Array("Scala","Spark")   定义数组如果想要添加元素的话,需要导进一个包import scala.collection.ArrayBufferval arr1 = ArrayBuffer[Int]()    定义一个数组往arr1数组里添加元素arr1 += (1,2,3,4,5)往数组里面添加一个 Array元素arr1 ++

2016-11-09 11:33:42 609

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除