自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(115)
  • 收藏
  • 关注

原创 【Pyspark】DataFrame存为hive表及hive表的查询方式

使用Pyspark训练模型后,经常要将模型的训练结果输出为hive表,这篇博文就介绍如何将dataframe数据存为hive表。 想把DataFrame数据存为hive数据,就需要用到HiveContext,下面看下如何使用:#!/usr/bin/python# -*- coding: utf-8 -*-from pyspark.sql import Rowfrom pyspark.ml.linalg import Vectorsimport numpy as...

2020-06-12 17:40:20 3365

原创 【Pyspark】list转为dataframe报错:TypeError:not supported type: class numpy.float64

在PySpark中经常会使用到dataframe数据形式,本篇博文主要介绍,将list转为dataframe时,遇到的数据类型问题。有如下一个list:[(22.31670676205784, 15.00427254361571, 14.274554462639939, -48.011495169271186)]正常情况下:#!/usr/bin/python# -*- coding: utf-8 -*-from pyspark.sql import Rowfrom ...

2020-06-12 17:15:44 4294

原创 【PySpark】Spark 2.0系列SparkSession与Spark 2.0之前版本中的SQLContext和HiveContext的联系与区别

目录1.Spark在2.0版本和之前版本的入口2.SQLContext的使用3.HiveContext的使用4.SparkSession的三种创建方式4.1SparkSession直接builder方式4.2SparkConf的builder方式4.3SparkContext方式1.Spark在2.0版本和之前版本的入口 在Spark2.0之前,sparkContext是进入Spark的切入点。众所周知的RDD的创建和操作就需要使用sparkCont...

2020-05-29 18:56:01 2389

原创 【ClickHouse】创建MergeTree的分区和非分区表

大多数用MergeTree的场景都建立分区表,不过MergeTree也可以创建非分区表的,下面就举例说明如何创建分区表和非分区表:创建非分区表:CREATE TABLE tabel( orderid Int64 COMMENT '订单号', orderstatus Nullable(String) COMMENT '订单状态' incomeconfirmtime Nullable(String) COMMENT '收入确认时间')ENGINE=MergeTree...

2020-05-19 15:37:47 4494

原创 【ClickHouse】表引擎详解

目录1.日志引擎系列--Log系列1.1TinyLog1.2Log1.3StripeLog2.Special系列2.1Memory2.2Merge2.3Distributed3.MergeTree系列--合并树引擎系列3.1MergeTree3.2ReplacingMergeTree3.3CollapsingMergeTree3.4VersionedCollapsingMergeTree3.5SummingMergeTree3.6Aggregati

2020-05-19 14:00:59 4077

原创 【ClickHouse】查看数据库容量和表大小的方法(system.parts各种操作方法)

clickhouse有system.parts系统表记录表相关元数据,可以通过该表对clickhouse上所有表进行查询表大小、行数等操作。1.查看数据库容量select sum(rows) as row,--总行数 formatReadableSize(sum(data_uncompressed_bytes)) as ysq,--原始大小 formatReadableSize(sum(data_compressed_bytes)) as ysh,--压缩大...

2020-05-15 10:12:17 19108 1

原创 【ClickHouse】row_number() over (partition by)的几种实现方法

hive中有row_number() over (partition by)函数,可以一句SQL实现想要的排序,在ClickHouse中有很多种实现方式,本篇就介绍一下几种方法。目录1.row_number排序2.row_number排序后取出rank=1的结果3.特殊场景1.row_number排序HIVE中写法:select number, row_number() over (partition by number order by time...

2020-05-14 10:57:30 21562 7

原创 【ClickHouse】三种排序函数(arrayEnumerate、arrayEnumerateDense、arrayEnumerateUniq)

众所周知,ClickHouse中的很多SQL语法和hive、传统数据库不同,本篇博文,是总结一下ClickHouse常用的排序函数和简单用法。1)arrayEnumerate 等同于 ROW_NUMBER2)arrayEnumerateDense 等同于 DENSE_RANK3)arrayEnumerateUniq ,网上有人说:它只返回元素第一次出现的位置。但是,从实验来看,这个函数结果更像是每个数元素出现的次数。SELECT [ '2020-05-01','2020-0...

2020-05-14 10:45:24 12019

原创 【PySpark】启动SparkContext报错--Cannot run multiple SparkContexts at once; existing SparkContext(...)

在学习和使用PySpark之初,可能都会遇到这个报错:看下场景:场景一:创建SparkContext的最基本方法,只需要传递两个参数:(1)集群URL:告诉Spark如何连接到集群上,使用local可以让spark运行在单机单线程上。(2)应用名:使用"monter",当连接到一个集群时,这个值可以在集群管理器的用户界面中找到你的应用。from pyspark import SparkConf, SparkContextspark = SparkConf().s...

2020-05-12 09:37:03 7231

原创 【PySpark】将本地CSV文件读为DataFrame

本篇主要介绍两种将本地文件读为DataFrame的方法。方法一:其中,format的第一个参数是固定的,代表读取csv文件,load后面写入自己存储的路径即可from pyspark import SparkContextfrom pyspark.sql import SQLContextsc = SparkContext()sqlContext = SQLContext(sc)df = sqlContext.read.format('com.databricks.s...

2020-05-08 18:52:16 4659 1

原创 Anaconda中配置Pyspark的Spark开发环境--详解!

这篇文章,真的经历了很长时间,本身对java和电脑的环境变量不熟悉,走了很多弯路,以此记录下安装的新路历程,分享给大家。目录1.在控制台中测试ipython是否启动正常2.安装JDK3.安装Spark并配置环境变量4.Pyspark配置5.测试Pyspark是否安装成功1.在控制台中测试ipython是否启动正常既然要在Anaconda中配置s...

2020-05-08 16:50:49 10370 5

原创 【ClickHouse】空值问题

目录1.建表时的空值问题2.查询时的空值问题3.关联问题 我们再ClickHouse环境下,SQL很多语法是和HIVE、Spark环境下不同的。以下从三个方面说明CK下空值的问题。1.建表时的空值问题如果我们建表时,不特殊说明空值,比如:CREATE TABLE test.table1(id String,name String) ENGINE = ...

2020-05-08 09:34:29 13485

原创 DataFrame系列3之Pandas.DataFrame操作表连接三种方式:merge, join, concat

目录1.concat2.JOIN3.merge 作为DataFrame系列的第三部分,主要是对两个DataFrame之间的关联进行介绍。以下面两个DataFrame为例进行语法的介绍:df_1 = pd.read_csv('D:/traindatas/map_1.csv', sep=',', header='infer') # 测试集df_2 = pd...

2020-04-16 20:00:14 2185

原创 【Python】DataFrame系列2之常用方法和函数

本篇是DataFrame系列博文的,常用的基础方法。以下面dataframe为案例:1.查看有哪些列data.columnsOut[183]: Index(['a', 'b', 'c', 'd'], dtype='object')2.查看索引data.indexOut[185]: RangeIndex(start=0, stop=2, step=1)...

2020-04-07 19:26:05 516

原创 【Python】DataFrame系列1之创建方法和其他数据类型list\array之间的转换

Python中最常用的数据形式莫过于DataFrame了,基本上每次使用多多少少都要百度一下,终于想起了写一个DataFrame的系列文章,把DataFrame使用过的一些方法做一个系列文章,方便以后的查阅,也做一个分享。这篇博文主要介绍,DataFrame的创建方式。目录1.read_csv()方法2.read_table()方法3.read_excel()方法...

2020-04-03 18:09:27 842

原创 【Python】字典的使用方法--get()方法

在之前博文中,已经介绍过字典的遍历方法,为什么要写这篇博文呢?是因为当我们试图访问一个字典中不存在的键时,可能发生意外,这篇博文主要介绍get方法如何优雅的处理这种问题。目录1.if-else方式2.三元表达式3.get()方式 首先,创建一个字典dicts = dict([('张三',25), ('李四',20), ('王洼',18)...

2020-04-03 16:24:35 1402

原创 【Python】Print的进阶用法

在Python中我们经常使用到Print操作,那么,我们真的了解这个函数嘛?Print函数有很多种用法,如何优雅的使用print的呢?本文,都针对该列表进行输出,看下print的强大吧~values=['a','b','c']目录1.常规用法1.1全部输出1.2带有解释的输出2.进阶用法2.1全部输出2.2带有解释的输出1.常规用法1....

2020-04-03 15:46:03 695

原创 【Python】Pycharm使用技巧

Pycharm里面有一些快捷键和使用技巧会使我们阅读、编写代码达到事半功倍的效果!我这里说的是windows版本~目录1.一键规范代码格式2.单行OR多行注释3.插入常用的代码4.直接运行当前代码5.以Debug(调试)模式运行代码6.在Pycharm展现双屏效果1.一键规范代码格式Command+Option+L #一键 pep82.单行OR...

2020-03-27 18:09:11 385

原创 【shell】如何使用shell从HDFS上下载文件传入并调用Python脚本

之前小白已经对shell调用Python脚本有过一些介绍(https://blog.csdn.net/Jarry_cm/article/details/95074336),可参考该博文。本篇主要介绍shell脚本如何从HDFS上获取文件,和文件的引用。1.从HDFS获取文件到当前路径这个步骤的前置步骤就是首先在HDFS上已经上传了文件,然后获取文件到当前路径。hdfs...

2020-03-24 14:57:52 933

原创 【学习笔记】数据结构之单链表(先进先出、先进后出)

先看下数据结构中一种重要的数据存储形式,链表,下面两段是来自百度百科: 链表是一种物理存储单元上非连续、非顺序的存储结构,数据元素的逻辑顺序是通过链表中的指针链接次序实现的。链表由一系列结点(链表中每一个元素称为结点)组成,结点可以在运行时动态生成。每个结点包括两个部分:一个是存储数据元素的数据域,另一个是存储下一个结点地址的指针域。 相比于线性表顺序结构,操作复杂。...

2020-03-24 09:50:31 6591

原创 【学习笔记】身体驿站-睡眠的原理

最近看了很多非常受用的网易公开课,为了能更好的理解和学习这些课程,小白会不定期更新一些“自认为”比较有意义的课程,记录下学习笔记。本篇学习笔记记录的是网易公开课中南大学公开课,管茶香:“身体驿站-睡眠的原理”。 人体大部分的功能活动是按照一定的时间顺序周期性变化的,以24小时为周期称为昼夜节律,以一个月为周期的月经,以一年为周期的称为年节率。最常见的昼夜节律,比...

2020-03-23 09:09:13 731

原创 【Python】Linux环境下安装anaconda3

windows下安装anaconda相信大家都装过,小白最近需要在Linux环境下使用python,因此就研究了一下如何安装,不过安装过程中遇到几个问题,这里也会详细描述下如何解决。目录1.下载安装包2.安装包上传到服务器3.在安装包路径下安装4.验证是否安装成功4.1anaconda命令找不到怎么办?4.2source ~/.bashrc失败?5.查看...

2020-03-20 12:27:51 1151

原创 【Python】txt文件操作详解

在使用Python的过程中,需要对各种文件进行处理如excel、csv、txt等,这篇文章主要总结对txt文件的各种操作。目录1.打开文件--open()方法2.读文件--read()方法3.写文件--write()方法4.关闭文件--close()方法5.文件定位5.1文件内的当前位置--tell()方法5.2改变当前文件的位置--seek()方...

2020-03-18 10:18:19 5007

原创 自然语言处理研究综述

自然语言是指汉语、英语、俄语等人们日常使用的语言,区别于人工语言,如程序设计的语言。 自然语言处理,是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。实现人机间的信息交流,是人工智能界、计算机科学和语言学界所共同关注的重要问题。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信...

2020-03-18 08:49:12 1551

原创 【Python】dict和list相互转换(字典和列表相互转换)

在之前博文(https://blog.csdn.net/Jarry_cm/article/details/104914405)中,已经介绍了String和List之间的转换,这篇主要介绍dict和list之间的转换。目录1.List转dict1.1For循环1.2嵌套列表1.3zip函数2.dict转List2.1list函数--取key值2.2li...

2020-03-17 18:33:11 74861 2

原创 【Python】list和string的相互转换

1.String转List2.List转String

2020-03-17 09:44:07 1699

原创 【Python】filter函数的应用

Python中有很多内置函数,内置函数会使代码变得更加精简且高效。这篇博文主要介绍filter函数。filter()函数,filter英文含义为过滤,在Python中用于过滤序列,过滤掉不符合条件的元素,返回由符合条件元素组成的新列表。该函数有两个参数,一个为函数,一个为序列,序列的每个元素作为参数传递给函数进行判断,然后返回。函数形式:filter(function,...

2020-03-17 09:14:35 472

原创 信息论之香农熵(又名信息熵)最简单-形象讲解

1948 年,香农提出了“信息熵”(shāng) 的概念,解决了对信息的量化度量问题。首先,先介绍一下克劳德 • 香农(Claude Shannon, 1916-2001) 香农生于美国密歇根州,本科毕业于“美国大学之母”密歇根大学。他儿时崇拜的英雄人物是大名鼎鼎的、造福全人类的美国大发明家托马斯 • 爱迪生(Thomas Alva Edison, 1847-1931),...

2020-03-14 14:42:11 14917 1

原创 【技能】Chrome扩展程序的使用

对于所有工作的小伙伴而言,Chrome并不陌生,但是对于Chorme的功能,可能都停留在,工作中的search信息。小白最近发现了Chrome强大的扩展程序功能。 首先,Chrome扩展程序网址为:chrome://extensions/,进入到该网址,你可以看到你已经安装的一些扩展程序。 然后,如何增加新的扩展程序呢?点击左上方的扩展程序,出现下面弹框,然后,点...

2020-03-14 11:06:58 3889

原创 【NLP】Python词性标注之词性解释

小白在之前文章(https://blog.csdn.net/Jarry_cm/article/details/102903970)已经写过jieba词性标注的文章。在词性标注后,看到一堆英文简写的词性,怎样一一对应又成了难题,这里,小白总结了一下词性的对应关系。1.中文标注和含义对应关系标注 名称 含义 Ag 形语素 形容词性语素。形容词代码为a,语...

2020-03-13 10:24:19 3821

原创 【Pytho】报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 2: illegal multiby终极解决方案

最近小白在做中文情感分析的时候,经常使用到文件打开出错的问题,尝试了很多方式,都不成功,这里写下自己的新路历程。1.首先,下面是正常的读文件代码sen_file = open('D:/Users/Downloads/BosonNLP_sentiment_score.txt','r')sen_list = sen_file.readlines()报错如下:网上随便...

2020-03-03 12:24:31 2999 1

原创 【shell】shell脚本Linux环境mutt发送邮件(实现单邮件循环发送和根据条件循环发送)

之前用过shell脚本发送报表,不过都是单个脚本发送一个报表,最近使用到根据条件循环发送报表的情况,也从同事那里学到这个技能。这里对shell发送邮件做一些总结。 1.单个脚本实现单封邮件的发送这种就很简单了,直接发送邮件,下面来一个案例。下面python命令是在python环境下运行python代码(用来结果转为excel文件,最终作为附件发送)mutt命令下面再一...

2020-02-28 19:51:20 1084

原创 【Python】XGBoost原理小结及Python中的参数详解

对于XGBoost,相信大家都不陌生了,小白也曾经看了很多次,不过每次都没有很系统的学习,都是在使用过程中,遇到什么问题,就查什么问题,对于整个算法都是“星星点点”的学习,最近几天又看到了这个算法,小白就在学习中总结了一下这个算法的要点。1.XGBoost描述 XGBoost是一种集成学习算法,通过回归树,每一次对残差(实际值与预测值之差)进行拟合,最后把预测值相加得到最终的...

2020-02-12 16:27:53 2011 1

原创 【数据库】Hive SQL 正则表达式进阶二(regexp_extract函数进阶使用)

在之前文章中(文章如下),小白有讲过正则的三个函数,替换、截取等操作。在工作中,又遇到了其他的问题,这里做一个进阶的讲解文章,欢迎遇到类似问题的小伙伴一起学习交流。初级用法参照下面的文章Hive SQL 正则表达式进阶一(regexp的三个函数)https://blog.csdn.net/Jarry_cm/article/details/87272189场景一有以下几...

2020-01-15 20:23:18 8999

原创 【数据库】HIVE SQL之JSON字符串解析的坑

对于hive对JSON字符串的解析小白在之前博文中已经有两篇做过详细的介绍了,这边博文主要记录一下,小白在工作中遇到的一个实例,巨坑。 案例如下:{"id":"23|38","index":"1","name":"高星好评","subfilters":,"type":"23"}一眼看上去,是不是符合JSON字符串的风格,然后就开始解析select filters,...

2019-12-19 21:36:59 2111

原创 【Python】PySpark安装

小白试了很多方法,直接pip install pyspark失败了,应该是安装包太大了,在anaconda主页上,点击下载安装,界面没有反应,因此就使用了离线下载的方式。首先pip install时,你可以记录下自己需要下载的版本,然后去下面的网址(https://pypi.org/)中去搜索,下载相应的版本。下载完成后,pip install即可...

2019-12-13 19:56:36 3493

原创 【Git】Git学习之删除GitHub上的仓库repository

小白之前的博客中已经介绍了Git的基本使用,掌握之前的内容,就可以开始用起来啦!不过,在使用过程中,大家可能会在GitHub中创建很多测试respository,那么如何删除这些测试库,小白这篇文章就介绍一下~1.打开需要删除的仓库,点击红框中的setting2.点击后出现下面页面,然后拉到页面最下方拉到最下方如下页面,点击圆框中按钮3.点击后出现下面页面...

2019-12-11 19:39:37 468

原创 【Git】Git学习之远程库操作

之前文章中小白讲了本地仓库和工作区之间的基本操作,这篇博客小白整了了一下远程库的一些操作。首先,确认自己已经申请了GitHub且有了.ssh文件,由于小白之前已经都操作完了,这里就不再重新来一遍,过程很简单,可以任意百度,轻松找到方法。下面是小白电脑中已经存在的内容,其中id_rsa是私钥,id_rsa.pub是公钥,私钥不可外传,公钥可以。其中公钥的内容我们下一步要用到。...

2019-12-10 21:20:49 451

原创 【Git】Git学习之创建版本库

对于Git小白是试了一次又一次,每一次都要搜各种教程,由于不经常使用,还是经常忘记,于是决定将每次用到的一些操作命令记录下来,也方便以后的查找,也做一个系列的分享。首先,从百度图片中盗个图: 下面是GIT的流程图,先整体介绍下GIT的工作流程,每个小白最开始用GIT时,都需要先创建一个本地的工作文件夹,这个用来本地操作文档,然后可以使用add命令将本地创建的文档上传到暂...

2019-12-10 18:32:09 2533 1

原创 【Python】dataframe列数据的修改(map函数)

在对数据进行分析时,如果某一列的值较为分散,那么在画柱状图或者分析时,我们大多会对这列数据处理,处理后再进行分析。这就涉及到对DataFrame的列的处理。 看以下的场景,处理前:df_1 = df[(df['country']== 1)]sns.barplot(x = df_1['hotel_score'], y = df_1['uv'])plt.show(...

2019-12-03 19:03:39 8246

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除