微笑_C-CSDN博客

原创将json字符串转化为json对象https://elasticsearch.cn/question/3902

import com.google.gson.Gsonimport com.alibaba.fastjson.{JSON, JSONObject}import java.utilobject local { case class User1(id: Long,organization_id: Long,username: String ,role_names: String ,...

2018-10-20 15:37:21 426

原创 https://stackoverflow.com/questions/46895441/error-yarn-applicationmaster-uncaught-exception-java-ut

package bigdata.spark.SparkStreaming.kafka010import org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.streaming.kafka010.{KafkaUtils, LocationStrategies, OffsetRange}...

2018-10-14 09:52:34 1137

原创 5555

Logged in as: dr.who Logs for container_1540265434662_0001_02_000001ResourceManagerRM HomeNodeManagerToolsSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:...

2018-10-14 09:51:48 944

原创 444

package bigdata.spark.SparkStreaming.kafka082import java.sql.Timestampimport bigdata.spark.DaoUtil.MysqlUtilimport kafka.common.TopicAndPartitionimport kafka.message.MessageAndMetadataimport k...

2018-10-14 09:50:50 319

原创 3333

package bigdata.spark.SparkStreaming.kafka010import org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka010.{ConsumerSt...

2018-10-14 09:50:19 2291

原创 222

package bigdata.spark.SparkStreaming.kafka010;import net.sf.json.JSONObject;import org.apache.kafka.clients.producer.Producer;import org.apache.kafka.clients.producer.ProducerConfig;import org.a...

2018-10-14 09:49:42 216

原创 1111

package bigdata.spark.SparkStreaming.kafka010import java.util.Propertiesimport org.apache.kafka.clients.consumer.{Consumer, KafkaConsumer}import org.apache.kafka.common.TopicPartitionimport ...

2018-10-14 09:31:56 171

原创 Scala io操作

1. 读文件scala特有的是scala.io.Source，例如： import scala.io._ Source.fromFile(“cn.scala”,”utf8”).mkString逐行读文件内容： Source.fromFile(new java.io.File(“cn.scala”)).getLines().foreach(println)2. 写文件im...

2018-07-23 10:48:39 301

原创机器学习概览

学习hands_on_Ml_with_Sklearn_and_TF的感悟1.机器学习概览机器学习有多种类型，可以根据如下规则进行分类：是否在人类监督下进行训练（监督，非监督，半监督和强化学习）是否可以动态渐进学习（在线学习 vs 批量学习）它们是否只是通过简单地比较新的数据点和已知的数据点，或者在训练数据中进行模式识别，以建立一个预测模型，就...

2018-05-23 17:20:29 366

上一期我们使用pandas模块实现频数统计、缺失值处理、数据映射和数据汇总 4个知识点，这期我们再来聊聊关于pandas如何实现数据合并、数据连接、创建哑变量和连续数值的区间化的操作。前两个操作在数据库中是非常常用的，即将多个数据集纵向合并和横向的扩展；后两个操作在数据建模中会经常用到，即离散变量的哑变量化处理和连续变量的分段处理。一、数据集的纵向合并如果你手中有多张数据结构一致的excel表...

2018-05-02 14:57:15 275

转载 pandas(数据框部分03)

上一期我们使用pandas模块实现观测的筛选、变量的重命名、数据类型的变换、排序、重复观测的删除、和数据集的抽样，这期我们继续介绍pandas模块的其他新知识点。包括频数统计、缺失值处理、数据映射、数据汇总。一、频数统计我们以被调查用户的收入数据为例，来谈谈频数统计函数value_counts。频数统计，顾名思义就是统计某个离散变量各水平的频次。这里统计的是性别男女的人数，是一个绝对值，如果想进...

2018-05-02 10:41:22 317

转载 pandas(数据框部分02)

接着上一期的pandas模块介绍与应用，今天我们来聊聊如何借助于pandas模块进行数据的预处理，内容包括数据集变量与观测的筛选、变量的重命名、数据类型的变换、排序、重复观测的删除、和数据集的抽样。一、数据筛选以iris数据集为例，想从数据集中取出某列（序列对象）或某几列该如何操作？在pandas取出一列有两种方法，一种是比较普遍适用的名称索引法，另一种则是点取法。看看下面的例子就可以理解了：如果...

2018-04-27 14:43:56 351

转载 pandas(数据框部分01)

作为从事数据相关工作的我们，平时接触的更多的是一张有板有眼的数据表格，在这里我们就叫作数据框。在Python中可以通过pandas模块的DataFrame函数构造数据框，而R语言则是data.frame创建数据框。接下来我们将对比Python和R语言如下几个方面的应用：1、数据框的构造在Python中,可以借助于列表、元组、字典进行手工构建数据框，我们用例子说明：通过列表创建数据框发现，这样创建数...

2018-04-27 10:41:45 282

转载利用Python读取外部数据文件

不论是数据分析，数据可视化，还是数据挖掘，一切的一切全都是以数据作为最基础的元素。利用Python进行数据分析，同样最重要的一步就是如何将数据导入到Python中，然后才可以实现后面的数据分析、数据可视化、数据挖掘等。在本期的Python学习中，我们将针对Python如何获取外部数据做一个详细的介绍，从中我们将会学习以下4个方面的数据获取：1、读取文本文件的数据，如txt文件和csv文件2、读取电...

2018-04-25 10:20:35 1374

转载手把手教你完成半结构化数据的处理

前言现在越来越多的数据以json的格式进行存储，例如通过网络爬虫时，那些异步存储的数据往往都是json类型的；再如企业数据库中的日志数据，也会以json的格式存放。前不久，一位网友就碰到了这个问题，手中Excel存储的数据并不是标准化的结构数据，而是以json格式存储在Excel的每个单元格。那今天我们就来聊聊如何利用Python将半结构化的json数据转换成结构化数据。简单的json...

2018-04-25 09:14:27 7535

原创填充数据的平均值

今天在群里看到这样的一个问题就是缺失的值要是每个ID的对应time的平均值1、创建矩阵然后使用fillna和transform方法进行填充大功告成

2018-04-23 16:32:36 2800

原创 pandas入门

这些是pandas最基本的操作和我自己的理解In [1]: import pandas as pd In [2]: import numpy as np In [3]: import matplotlib.pyplot as plt 创建对象使用传递的值列表序列创建序列, 让pandas创建默认整数索引12345678910 In [4]: s = pd.Series([1,3,5,np.nan,...

2018-04-20 16:31:04 224

转载 python merge、concat合并数据集

数据规整化：合并、清理、过滤pandas和python标准库提供了一整套高级、灵活的、高效的核心函数和算法将数据规整化为你想要的形式！本篇博客主要介绍：合并数据集：.merge()、.concat()等方法，类似于SQL或其他关系型数据库的连接操作。合并数据集1） merge 函数参数参数说明left参与合并的左侧DataFrameright参与合并的右侧DataFramehow连接方式：‘inn...

2018-04-20 15:08:30 552

原创数组的合并

合并数组使用numpy下的vstack（垂直方向）和hstack（水平方向）函数：12345678910>>> a = np.ones((2,2)) >>> b = np.eye(2) >>> print np.vstack((a,b)) [[ 1. 1.] [ 1. 1.]

2018-04-19 09:26:16 144

原创 numpy数组属性的获取

>>> a = np.zeros((2,2,2)) >>> print a.ndim #数组的维数 3 >>> print a.shape #数组每一维的大小 (2, 2, 2) >>> print a.size #数组的元素数 8 >>> print a.dtype #元素类型 float64 >>

2018-04-19 09:23:14 769

原创 numpy--的split

numpy.split numpy.split（ary，indices_or_sections，axis = 0 ）[source]将数组拆分为多个子数组。参数：ary：ndarray数组被分成子数组。indices_or_sections：int或1-D数组如果indices_or_sections是一个整数N，则该数组将沿着轴被分成N个相等的数组。如果这种分裂是不可能的，则会引发错误。如果in...

2018-04-17 10:50:52 480

转载 NumPy的详细教程(官网手册翻译)

先决条件在阅读这个教程之前，你多少需要知道点Python。如果你想从新回忆下，请看看Python Tutorial.如果你想要运行教程中的示例，你至少需要在你的电脑上安装了以下一些软件:PythonNumPy这些是可能对你有帮助的:ipython是一个净强化的交互Python Shell，对探索NumPy的特性非常方便。matplotlib将允许你绘图Scipy在NumPy的基础上提供了很多科学模...

2018-04-17 09:42:50 184

原创嵌入函数创建numpy.ndarray

最近在看numpy的官方文档，看到这个地方有些迷糊。原来函数f里面的x和y是根据每一个元素的坐标位置得到的如数据b的第一个元素是0 且他的坐标是[0,0] 所以f函数的x和y就是0,0 f函数最后输出的也是0 元素的2的坐标是[0,2] 所以x和y就是0和2 f函数最后输出2...

2018-04-16 11:22:07 243

转载 ImportError: No module named matplotlib.pyplot安装模块python

原文：https://my.oschina.net/letiantian/blog/339901http://www.cnblogs.com/sincoolvip/p/5966696.html环境：ubuntu 14.04， 32BitPython 2.7Python 2.7 IDE用上面的环境，测试一个曲线拟合的demo测试的时候，运行出错，原因是我的py

2018-03-09 10:01:02 794

原创实现contains功能

##包含写法s = "This be a string"if s.find("is") == -1: print "No 'is' here!"else: print "Found 'is' in the string." ##也可以用append函数把内容加载到数组中去##非包含写法s = "This be a string"if s.find("is") == -1:

2018-03-07 10:21:33 649

原创配置集群ssh免密码登录

1、首先在三台机器上配置对本机的ssh免密码登录生成本机的公钥，过程中不断敲回车即可，ssh-keygen命令默认会将公钥放在/root/.ssh目录下ssh-keygen -t rsa将公钥复制为authorized_keys文件，此时使用ssh连接本机就不需要输入密码了cd /root/.sshcp id_rsa.pub authorized_keys

2017-05-29 09:23:51 297

原创配置yum源服务器

1、修改repo使用WinSCP（网上很多，自己下一个），将Centos-6.repo上传到CentOS中的/usr/local云盘地址这里我用的是阿里云的yum源(http://pan.baidu.com/s/1ctQLw6) 目录下cd /etc/yum.repos.d/rm -rf *mv 自己的repo文件移动到/etc/yum.repos.d/目录中：cp

2017-05-29 09:18:17 299

原创 scala 实现topN算法

[sql] view plain copytopN算法基础topN 分组topN --基础topN --aaa.txt 4 2 5 9 7 1 6 4 7 把这些字符转换成map(x=>(x.toInt,x))，利用int类型的比较进行排序。 package co

2017-05-23 18:03:59 1028

原创如何对Scala中集合进行排序

scala> val l = List(5,4,3,6,2,1)l: List[Int] = List(5, 4, 3, 6, 2, 1)scala> l.sortedres2: List[Int] = List(1, 2, 3, 4, 5, 6)scala> l.sorted(Ordering.Int.reverse)res3: List[Int] = List(6, 5, 4, 3, 2, 1

2017-05-23 17:55:10 1695

原创 scala循环判断

import scala.utll.control.Breaks._ (导入breaks模块)for( i if(i == 4) breakprintln(i)}当i=4的时候跳出循环这样输出结果只能是1、2、3。

2016-11-12 10:36:20 211

原创 sum函数求和

def sum(numbers : Int*) ={ var result =0; for(element 调用这个函数sum(1,2,3,4,5,6)最终会让集合里的数相加下面延伸一个比较重要的概念上面因为我们传入的是1到5的和，那么我们要计算1到100的和呢？我们可以使用这个语法：sum（1 to 100: _*） : _

2016-11-12 10:33:43 3270

原创 scala查看本地文件以及查看网页源码

import scala.io.Sourceobject proce { def main(args: Array[String]) { val file = Source.fromFile("D:\\test.txt") //打印出本机文件内容 //val file = Source.fromURL("http://spark.apache.

2016-11-11 15:27:04 547

原创 scala的元组和数组

object ArrayMap { def main(args: Array[String]) {// val pair = (100,"Spark","Scala")// println(pair._1)// println(pair._2) }

2016-11-11 15:25:56 378

原创 scala的函数定义、流程控制和异常处理

object scala { // def looper(x : Long, y : Long) : Long = {// var a = x// var b = y// while(a != 0){// val temp = a// a = b % a// b = temp// }// b

2016-11-10 17:12:28 166

原创 Scala数组

val arr = Array("Scala","Spark") 定义数组如果想要添加元素的话，需要导进一个包import scala.collection.ArrayBufferval arr1 = ArrayBuffer[Int]() 定义一个数组往arr1数组里添加元素arr1 += （1,2，3,4,5）往数组里面添加一个 Array元素arr1 ++

2016-11-09 11:33:42 617

qq_35403739的博客