自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 收藏
  • 关注

原创 关于用case class解析parquet的问题

今天review代码的时候发现一个问题,用case class去解析一个parquet文件,parquet文件的schema如下-id String-name String-age String-sex String有四个属性,按理说应该构造如下case class去解析case class people( id:String ...

2018-08-30 00:16:46 311

原创 Hadoop Name 无法启动 Caused by: java.net.BindException: Address already in use

启动hadoop 后,jps如下,没有datanode 查看hadoop/log 下的namenode日志如下9829 ResourceManager6887 Worker2615 Main9657 SecondaryNameNode9993 NodeManager5500 Launcher4685 Launcher6798 Master9470 DataNode201...

2018-08-28 15:04:21 2265

原创 shell 获得连续七天的日期

job_date=`date -d "yesterday" +%Y%m%d`echo $job_datedays=7getDates(){local dateStr=""for ((i=0;i< ${days};i++))doday=`date -d "${job_date}-${i}day" '+%Y%m%d'`dateStr=${dateStr}","${day}don...

2018-08-28 11:38:33 2051

原创 Idea 本地运行spark程序参数配置

在idea上运行spark程序,需要配置部分如下 点击run->Edit configurationVM options 配置的是配置参数,规定了spark运行的一些配置 program arguments 配置的是输入的参数,要注意的是,输入变量和对应的值之间用空格分开,并且值不需要用引号括起来...

2018-08-25 16:37:20 5454

原创 No applicable constructor/method found for actual parameters

在用case class 解析parquet文件时,比如先去查看下数据的schema,是如下形式的 构造一个case class如下case class xxx( id:String, idType:Byte, appUsage: Map[String,Map[String,Map[String,Long]]] )解析的时候报如...

2018-08-23 09:48:10 2475

原创 scala代码笔记

鉴于scala用的太烂 ,平时记录一下 scala简单的正则表达式 val ss =spark.read.parquet(location).map(x=>{ (x.getAs[String]("id"),x.getAs[String]("text")) }).map(x=>{ val id = x._1 val str =x._2...

2018-08-21 17:31:59 354

原创 ev.h: No such file or directory compilation terminated.

ev.h: No such file or directory compilation terminated.编译thirft时遇到如下问题 python缺少某个包好像,但是编译的时候Python并不是必须的,所以可以用下面的编译命令make -without-python...

2018-08-20 09:59:14 9198

原创 Idea pom无法导入依赖包

从git上clone的项目,发现很多依赖的包无法导入,对pom不断的进行reimport也没有效果 解决办法: 点击file->invalidate Caches/Restart 即可 重启后惊奇的发现,所有包都能正常导入了...

2018-08-20 08:54:24 16417 5

原创 Thrift 入门Demo Java版本

1.创建thrift文件新建一个maven项目,定义一个羡慕首先定义一个thrift文件,位置随意service HelloWorldService { string sayHello(1:string username)}这就定义好了一个名字为 HelloWorldService 的服务,后续客户端和服务端代码都是围绕这个HelloWorldService来写的2.生...

2018-08-19 11:45:02 11667

原创 Idea添加自动补全模板

点击左上角的file->setting,在搜索框里搜索livetemplate,点击右侧的加号,添加有两个选项1.live template2.template group2表示添加模板组,也就是某种语言比如java,1表示在这种语言下添加某个模板在下方的abbrvation 添加缩写,下方添加模板即可...

2018-08-19 08:46:07 1574

原创 ubuntu 下安装anaconda

1.下载下载链接 https://repo.continuum.io/archive/index.html 选择对应的版本,linux下为.sh文件2.安装在下载路径下 输入bash conda文件名安装过程中会让你选择安装路径,不用默认路径的话手动输入路径3.验证安装完毕后重启终端 输入conda 上述操作不行的话,gedit /etc/profile加入环...

2018-08-17 11:11:51 223

原创 ImportError: No module named '_tkinter'

ImportError: No module named ‘_tkinter’学习tensorflow的时候,运行第一行代码就遇到这个错误,给的提示如下,提示安装python3-tk packageImportError: No module named '_tkinter', please install the python3-tk packagepython3-tk packag...

2018-08-17 10:43:14 458

原创 对称二元变量和非对称二元变量

概念二元属性是一种标称属性,只有两个类别或状态:0或1,其中0通常表示该属性不出现,而1表示出现。如果两种状态对应于true和false的话,二元属性又称布尔属性。二元属性(例子)。倘若属性smoker表示患者对象,1表示患者抽烟,0表示患者不抽烟。一个二元属性是对称的,如果它的两种状态具有同等价值并且携带相同的权重;即关于哪个结果应该用0或1编码并无偏好(例如,属性gender的两种...

2018-08-16 09:29:30 11926

原创 TF-IDF与余弦相似性

“词频”(Term Frequency,缩写为TF),停用词:表示对找到结果毫无帮助、必须过滤掉的词,如”的”、”是”、”在”—-这一类最常用的词判定一个词的重要性:需要一个重要性调整系数,衡量一个词是不是常见词。如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词。用统计学语言表达,就是在词频的基础上,要对每个词分配一个”重要性”权重。这...

2018-08-16 09:28:09 1868

原创 CTR和CPC

CTR定义:Click-Through-Rate:即点击通过率,是互联网广告常用的术语,指网络广告(图片广告/文字广告/关键词广告/排名广告/视频广告等)的点击到达率,即该广告的实际点击次数(严格的来说,可以是到达目标页面的数量)除以广告的展现量(Show content)。 CTR是衡量互联网广告效果的一项重要指标。 CTR指在搜索引擎中输入关键词后进行搜索,然后按竞价等因素把相关的...

2018-08-16 09:27:05 5724

原创 支持度和置信度

支持度(support)支持度:{X, Y}同时出现的概率,例如:{尿布,啤酒}同时出现的概率{尿布,啤酒}的支持度 = 800 / 10000 = 0.08 {尿布,面包}的支持度 = 100 / 10000 = 0.01注意:{尿布,啤酒}的支持度等于{啤酒,尿布}的支持度,支持度没有先后顺序之分置信度(confidence)置信度:购买X的人,同时购买Y的概率,例...

2018-08-16 09:24:15 23895

原创 Nutch安装和编译

nutch安装1.安装ant编译工具sudo apt install ant2.下载svn工具,通过svn下载代码(或者直接从官网下载)sudo apt install subversionsvn co https://svn.apache.org/repos/asf/nutch/tags/release-1.73.在nutch文件夹下执行ant编译命令可能踩...

2018-08-15 20:14:11 880

原创 what is Machine Learning

What is machine learning?machine learning : experience—->skillThe skill is something which can improve the performance of programWhy use machine learningFor example,how to recognize a tre...

2018-08-15 20:11:47 729

原创 摩尔投票算法

Boyer-Moore majority vote algorithm(摩尔投票算法)Boyer-Moore majority vote algorithm(摩尔投票算法)是一种在线性时间O(n)和空间复杂度的情况下,在一个元素序列中查找包含最多的元素。它是以Robert S.Boyer和J Strother Moore命名的,1981年发明的,是一种典型的流算法(streaming algo...

2018-08-15 20:10:02 872

原创 windows下pip无法安装包

windows下初次使用pip无法安装包(终端和pycharm都不行)解决方法:在终端安装requests包(pip install requests),之后就能正常安装了

2018-08-15 20:07:41 3270

原创 Python中的*args 和**kwargs

这是一种特殊的语法,在函数定义中使用*args和kwargs传递可变长参数. *args用作传递非命名键值可变长参数列表(位置参数); kwargs用作传递键值可变长参数列表第一个参数是固定参数def test1(arg1,*args): print(arg1) for i in args: print(i) test1(“hello”,1,2,3,...

2018-08-15 20:05:45 184

原创 python正则表达式

正则表示概念1.使用单个字符串来描述匹配一系列符合某个语法规则的字符串2.对字符串操作的一种逻辑模式3.应用场景:处理文本和数据4.正则表达式过程:依次拿出表达式和文本中的字符比较。如果每一个字符都能匹配成功。则匹配成功,否则匹配失效要使用re模块第一个正则表达式pattern->compile -> match输入:import rest...

2018-08-15 20:04:58 268

原创 fatal: remote origin already exists.

git remote rm origin再添加自己的远程仓库即可

2018-08-14 22:50:46 241

原创 【leetcode】888.Uncommon Words from Two Sentences

easy 题,求句子A与B在the other句子中没有出现的单词,前提是这个单词在本身句子中指出现了一次 方法一: 比较笨的方法,先把sentence A 和sentence B中的单词放到字典里,并记录其出现的次数,然后在依次遍历这两个字典,看字典中的单词是否在另一个sentence的字典中出现过class Solution: def uncommonFromSentenc...

2018-08-14 08:33:47 480

原创 python线程和进程

多进程:启动一个程序后就会自动创建一个进程,可以在该进程的基础上创建一些子进程来完成任务创建进程:1)Process创建进程:利用multiprocessing模块创建进程,Process(target =funtion,args=()):from multiprocessing import Processimport osdef function(sa...

2018-08-14 07:57:12 178

原创 Spark 出现Initial job has not accepted any resources

提交spark作业时,程序无法正常运行,一直显示 可能的原因是之前用ctrl +C终止spark程序的时候并没有能够让spark程序终止(正常是可以的,或者通过sparkUI kill掉程序),导致spark程序一直在后台死循环般的运行,让后来提交的spark程序一直处于等待状态中,如下可以看到有个spark程序一直在运行,占用了所有的cpu内核,导致后面的程序一直处于等待中,...

2018-08-12 22:28:07 2293

原创 python网络编程

TCP编程:创建一个基于TCP的socketimport socket# 创建一个socket:s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)# 建立连接:s.connect(('www.sina.com.cn', 80))s.send(b'GET / HTTP/1.1\r\nHost: www.sina.com.c...

2018-08-10 07:20:37 606 5

原创 python面向对象编程

python 模板内容#!/usr/bin/env python # -*- coding: utf-8 -*-__author__ = 'Michael Liao'第一行指明运行环境第二行配置编码方式第三行说明作者eg1:import sysdef test(): args =sys.argv if len(args) ==1: ...

2018-08-10 07:20:04 549

原创 python 垃圾回收

Python的GC模块主要运用了“引用计数”(reference counting)来跟踪和回收垃圾。在引用计数的基础上,还可以通过“标记-清除”(mark and sweep)解决容器对象可能产生的循环引用的问题。通过“分代回收”(generation collection)以空间换取时间来进一步提高垃圾回收的效率。一、引用计数原理:当一个对象的引用被创建或者复制时,对象的引用计数加...

2018-08-10 07:18:55 201

原创 python函数式编程

函数式编程简介:一种编程范式把计算视为函数而非指令纯函数式编程:不需要变量,没有副作用,测试简单支持高阶函数,代码简单高阶函数:能接收函数做参数的函数变量可以指向函数函数的参数可以接收变量一个函数可以接收另一个函数作为参数能接收函数作为参数的函数被称为高阶函数eg1:def add(x,y,f): return f(x)+f(y)pri...

2018-08-10 07:18:25 540

原创 python的单例模式

单例模式(Singleton Pattern)主要是确保某一个类只有一个实例存在,如果希望整个系统中只出现一个实例时,就可以使用单例对象在 Python 中,我们可以用多种方法来实现单例模式:使用模块使用 __new__使用装饰器(decorator)使用元类(metaclass)使用模块Python 的模块就是天然的单例模式,因为模块在第一次导入时,会生成 .pyc...

2018-08-10 07:16:21 216

原创 python写入大量文件问题

今天准备把几个txt文件合并成一个文件时,用f.write方法写入时,发现程序执行完了,本应该十万行左右的txt记录,实际上只被写入了4k多行。网上查了是因为程序执行速度太快,以至于读到内容还没有完全写入文件,文件就已经关闭了方法一:加入缓冲区f.flush()//operationos.fsync(output)f.close() 打开文件后执行flush()...

2018-08-10 07:15:09 11191 5

原创 关于HashMap

一、HashMap和HashTable的区别HashMap和HashTable都实现了Map的接口,用哪个主要看他们的区别,主要体现在:线程安全,同步和速度上区别如下HashMap可以接受为null的键值(key)和值(value),(必须同时为null)而Hashtable则不行HashMap是非synchronized(同步),而Hashtable是synchronized。H...

2018-08-10 07:13:30 282

原创 Java String、StringBuilder和StringBuffer

1.速度上StringBuilder > StringBuffer > StringString为字符串常量,而StringBuilder和StringBuffer均为字符串变量,即String对象一旦创建之后该对象是不可更改的,但后两者的对象是变量,是可以更改的。String str="abc";System.out.println(str);str=str+"d...

2018-08-09 09:05:01 147

原创 java.net.SocketException: Permission denied 解决方法

android 对外发送网络请求时,遇到java.net.SocketException: Permission denied异常,解决方法:AndroidManifest.xml中,在标签前加入 <uses-permission android:name="android.permission.INTERNET" />即可。...

2018-08-06 17:51:29 3774

原创 局域网设备访问本机上运行的flask服务器

把app.run("127.0.0.1", 5002,debug=True) 改成app.run("0.0.0.0", 5002,debug=True) 在浏览器里输入本地的ip地址加端口即可

2018-08-06 16:48:18 4164

原创 python装饰器

python装饰器是一个以函数作为参数并返回一个替换函数的可执行函数,在不改变函数源码的情况下为函数增添一些新功能函数装饰器不带参数的装饰器python接收函数返回函数实现:def outer(func): def innner(): print("before func") ret =func() return ...

2018-08-06 16:46:35 619

原创 python定制类、枚举类和元类

定制类 :类里面有很多自带的方法,我们可以重写他们__str__print一个实例对象时会自动调用__str__方法,输出对象的信息class student(object): def __init__(self,name): self.name =namea =student('Bob')print(a)output:<__m...

2018-08-04 17:41:04 9567

原创 PythonIO编程

文件读写读文件opentype表示打开类型,当打开非utf-8编码的文本时要用encoding之处编码方式,当文本打开的时候因为一些特殊字符导致错误时,用errors=’ignore‘来忽略这些错误f =open('filenlocation','opentype',encoding='gbk',errors='ignore')如果文件不存在,open()函数就会抛出一个I...

2018-08-04 17:40:25 9413

原创 Python with语句

常用用法:with open("file_location") as f: body一、术语:上下文管理协议(Context Management Protocol):包含方法 enter() 和 exit(),支持该协议的对象要实现这两个方法。上下文管理器(Context Manager):支持上下文管理协议的对象,这种对象实现了enter_() 和 exit() ...

2018-08-04 17:37:34 9718

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除