J小白Y-CSDN博客

原创【Pyspark】DataFrame存为hive表及hive表的查询方式

使用Pyspark训练模型后，经常要将模型的训练结果输出为hive表，这篇博文就介绍如何将dataframe数据存为hive表。想把DataFrame数据存为hive数据，就需要用到HiveContext，下面看下如何使用：#!/usr/bin/python# -*- coding: utf-8 -*-from pyspark.sql import Rowfrom pyspark.ml.linalg import Vectorsimport numpy as...

2020-06-12 17:40:20 3774

原创【Pyspark】list转为dataframe报错：TypeError:not supported type: class numpy.float64

在PySpark中经常会使用到dataframe数据形式，本篇博文主要介绍，将list转为dataframe时，遇到的数据类型问题。有如下一个list：[(22.31670676205784, 15.00427254361571, 14.274554462639939, -48.011495169271186)]正常情况下：#!/usr/bin/python# -*- coding: utf-8 -*-from pyspark.sql import Rowfrom ...

2020-06-12 17:15:44 4668

原创【PySpark】Spark 2.0系列SparkSession与Spark 2.0之前版本中的SQLContext和HiveContext的联系与区别

目录1.Spark在2.0版本和之前版本的入口2.SQLContext的使用3.HiveContext的使用4.SparkSession的三种创建方式4.1SparkSession直接builder方式4.2SparkConf的builder方式4.3SparkContext方式1.Spark在2.0版本和之前版本的入口在Spark2.0之前，sparkContext是进入Spark的切入点。众所周知的RDD的创建和操作就需要使用sparkCont...

2020-05-29 18:56:01 2811

原创【ClickHouse】创建MergeTree的分区和非分区表

大多数用MergeTree的场景都建立分区表，不过MergeTree也可以创建非分区表的，下面就举例说明如何创建分区表和非分区表：创建非分区表：CREATE TABLE tabel( orderid Int64 COMMENT '订单号', orderstatus Nullable(String) COMMENT '订单状态' incomeconfirmtime Nullable(String) COMMENT '收入确认时间')ENGINE=MergeTree...

2020-05-19 15:37:47 4794

原创【ClickHouse】表引擎详解

目录1.日志引擎系列--Log系列1.1TinyLog1.2Log1.3StripeLog2.Special系列2.1Memory2.2Merge2.3Distributed3.MergeTree系列--合并树引擎系列3.1MergeTree3.2ReplacingMergeTree3.3CollapsingMergeTree3.4VersionedCollapsingMergeTree3.5SummingMergeTree3.6Aggregati

2020-05-19 14:00:59 5001

原创【ClickHouse】查看数据库容量和表大小的方法（system.parts各种操作方法）

clickhouse有system.parts系统表记录表相关元数据，可以通过该表对clickhouse上所有表进行查询表大小、行数等操作。1.查看数据库容量select sum(rows) as row,--总行数 formatReadableSize(sum(data_uncompressed_bytes)) as ysq,--原始大小 formatReadableSize(sum(data_compressed_bytes)) as ysh,--压缩大...

2020-05-15 10:12:17 22379 1

原创【ClickHouse】row_number() over (partition by)的几种实现方法

hive中有row_number() over (partition by)函数，可以一句SQL实现想要的排序，在ClickHouse中有很多种实现方式，本篇就介绍一下几种方法。目录1.row_number排序2.row_number排序后取出rank=1的结果3.特殊场景1.row_number排序HIVE中写法：select number, row_number() over (partition by number order by time...

2020-05-14 10:57:30 23740 7

原创【ClickHouse】三种排序函数(arrayEnumerate、arrayEnumerateDense、arrayEnumerateUniq)

众所周知，ClickHouse中的很多SQL语法和hive、传统数据库不同，本篇博文，是总结一下ClickHouse常用的排序函数和简单用法。1）arrayEnumerate 等同于 ROW_NUMBER2）arrayEnumerateDense 等同于 DENSE_RANK3）arrayEnumerateUniq ，网上有人说：它只返回元素第一次出现的位置。但是，从实验来看，这个函数结果更像是每个数元素出现的次数。SELECT [ '2020-05-01','2020-0...

2020-05-14 10:45:24 12570

原创【PySpark】启动SparkContext报错--Cannot run multiple SparkContexts at once; existing SparkContext(...)

在学习和使用PySpark之初，可能都会遇到这个报错：看下场景：场景一：创建SparkContext的最基本方法，只需要传递两个参数：（1）集群URL：告诉Spark如何连接到集群上，使用local可以让spark运行在单机单线程上。（2）应用名：使用"monter"，当连接到一个集群时，这个值可以在集群管理器的用户界面中找到你的应用。from pyspark import SparkConf, SparkContextspark = SparkConf().s...

2020-05-12 09:37:03 8144

原创【PySpark】将本地CSV文件读为DataFrame

本篇主要介绍两种将本地文件读为DataFrame的方法。方法一：其中，format的第一个参数是固定的，代表读取csv文件，load后面写入自己存储的路径即可from pyspark import SparkContextfrom pyspark.sql import SQLContextsc = SparkContext()sqlContext = SQLContext(sc)df = sqlContext.read.format('com.databricks.s...

2020-05-08 18:52:16 5085 1

原创 Anaconda中配置Pyspark的Spark开发环境--详解！

这篇文章，真的经历了很长时间，本身对java和电脑的环境变量不熟悉，走了很多弯路，以此记录下安装的新路历程，分享给大家。目录1.在控制台中测试ipython是否启动正常2.安装JDK3.安装Spark并配置环境变量4.Pyspark配置5.测试Pyspark是否安装成功1.在控制台中测试ipython是否启动正常既然要在Anaconda中配置s...

2020-05-08 16:50:49 13583 6

原创【ClickHouse】空值问题

目录1.建表时的空值问题2.查询时的空值问题3.关联问题我们再ClickHouse环境下，SQL很多语法是和HIVE、Spark环境下不同的。以下从三个方面说明CK下空值的问题。1.建表时的空值问题如果我们建表时，不特殊说明空值，比如：CREATE TABLE test.table1(id String,name String) ENGINE = ...

2020-05-08 09:34:29 14100

原创 DataFrame系列3之Pandas.DataFrame操作表连接三种方式：merge, join, concat

目录1.concat2.JOIN3.merge 作为DataFrame系列的第三部分，主要是对两个DataFrame之间的关联进行介绍。以下面两个DataFrame为例进行语法的介绍：df_1 = pd.read_csv('D:/traindatas/map_1.csv', sep=',', header='infer') # 测试集df_2 = pd...

2020-04-16 20:00:14 2627

原创【Python】DataFrame系列2之常用方法和函数

本篇是DataFrame系列博文的，常用的基础方法。以下面dataframe为案例：1.查看有哪些列data.columnsOut[183]: Index(['a', 'b', 'c', 'd'], dtype='object')2.查看索引data.indexOut[185]: RangeIndex(start=0, stop=2, step=1)...

2020-04-07 19:26:05 1250

原创【Python】DataFrame系列1之创建方法和其他数据类型list\array之间的转换

Python中最常用的数据形式莫过于DataFrame了，基本上每次使用多多少少都要百度一下，终于想起了写一个DataFrame的系列文章，把DataFrame使用过的一些方法做一个系列文章，方便以后的查阅，也做一个分享。这篇博文主要介绍，DataFrame的创建方式。目录1.read_csv()方法2.read_table()方法3.read_excel()方法...

2020-04-03 18:09:27 1048

原创【Python】字典的使用方法--get()方法

在之前博文中，已经介绍过字典的遍历方法，为什么要写这篇博文呢？是因为当我们试图访问一个字典中不存在的键时，可能发生意外，这篇博文主要介绍get方法如何优雅的处理这种问题。目录1.if-else方式2.三元表达式3.get()方式首先，创建一个字典dicts = dict([('张三',25), ('李四',20), ('王洼',18)...

2020-04-03 16:24:35 1642

原创【Python】Print的进阶用法

在Python中我们经常使用到Print操作，那么，我们真的了解这个函数嘛？Print函数有很多种用法，如何优雅的使用print的呢？本文，都针对该列表进行输出，看下print的强大吧~values=['a','b','c']目录1.常规用法1.1全部输出1.2带有解释的输出2.进阶用法2.1全部输出2.2带有解释的输出1.常规用法1....

2020-04-03 15:46:03 1144

原创【Python】Pycharm使用技巧

Pycharm里面有一些快捷键和使用技巧会使我们阅读、编写代码达到事半功倍的效果！我这里说的是windows版本~目录1.一键规范代码格式2.单行OR多行注释3.插入常用的代码4.直接运行当前代码5.以Debug(调试)模式运行代码6.在Pycharm展现双屏效果1.一键规范代码格式Command+Option+L #一键 pep82.单行OR...

2020-03-27 18:09:11 601

原创【shell】如何使用shell从HDFS上下载文件传入并调用Python脚本

之前小白已经对shell调用Python脚本有过一些介绍(https://blog.csdn.net/Jarry_cm/article/details/95074336),可参考该博文。本篇主要介绍shell脚本如何从HDFS上获取文件，和文件的引用。1.从HDFS获取文件到当前路径这个步骤的前置步骤就是首先在HDFS上已经上传了文件，然后获取文件到当前路径。hdfs...

2020-03-24 14:57:52 1175

原创【学习笔记】数据结构之单链表（先进先出、先进后出）

先看下数据结构中一种重要的数据存储形式，链表，下面两段是来自百度百科：链表是一种物理存储单元上非连续、非顺序的存储结构，数据元素的逻辑顺序是通过链表中的指针链接次序实现的。链表由一系列结点（链表中每一个元素称为结点）组成，结点可以在运行时动态生成。每个结点包括两个部分：一个是存储数据元素的数据域，另一个是存储下一个结点地址的指针域。相比于线性表顺序结构，操作复杂。...

2020-03-24 09:50:31 7209

原创【学习笔记】身体驿站-睡眠的原理

最近看了很多非常受用的网易公开课，为了能更好的理解和学习这些课程，小白会不定期更新一些“自认为”比较有意义的课程，记录下学习笔记。本篇学习笔记记录的是网易公开课中南大学公开课，管茶香：“身体驿站-睡眠的原理”。人体大部分的功能活动是按照一定的时间顺序周期性变化的，以24小时为周期称为昼夜节律，以一个月为周期的月经，以一年为周期的称为年节率。最常见的昼夜节律，比...

2020-03-23 09:09:13 1227

原创【Python】Linux环境下安装anaconda3

windows下安装anaconda相信大家都装过，小白最近需要在Linux环境下使用python，因此就研究了一下如何安装，不过安装过程中遇到几个问题，这里也会详细描述下如何解决。目录1.下载安装包2.安装包上传到服务器3.在安装包路径下安装4.验证是否安装成功4.1anaconda命令找不到怎么办？4.2source ~/.bashrc失败？5.查看...

2020-03-20 12:27:51 1401

原创【Python】txt文件操作详解

在使用Python的过程中，需要对各种文件进行处理如excel、csv、txt等，这篇文章主要总结对txt文件的各种操作。目录1.打开文件--open()方法2.读文件--read()方法3.写文件--write()方法4.关闭文件--close()方法5.文件定位5.1文件内的当前位置--tell()方法5.2改变当前文件的位置--seek()方...

2020-03-18 10:18:19 5786

原创自然语言处理研究综述

自然语言是指汉语、英语、俄语等人们日常使用的语言，区别于人工语言，如程序设计的语言。自然语言处理，是指用计算机对自然语言的形、音、义等信息进行处理，即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。实现人机间的信息交流，是人工智能界、计算机科学和语言学界所共同关注的重要问题。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信...

2020-03-18 08:49:12 1757

原创【Python】dict和list相互转换（字典和列表相互转换）

在之前博文（https://blog.csdn.net/Jarry_cm/article/details/104914405）中，已经介绍了String和List之间的转换，这篇主要介绍dict和list之间的转换。目录1.List转dict1.1For循环1.2嵌套列表1.3zip函数2.dict转List2.1list函数--取key值2.2li...

2020-03-17 18:33:11 94124 2

原创【Python】list和string的相互转换

1.String转List2.List转String

2020-03-17 09:44:07 2143

原创【Python】filter函数的应用

Python中有很多内置函数，内置函数会使代码变得更加精简且高效。这篇博文主要介绍filter函数。filter()函数，filter英文含义为过滤，在Python中用于过滤序列，过滤掉不符合条件的元素，返回由符合条件元素组成的新列表。该函数有两个参数，一个为函数，一个为序列，序列的每个元素作为参数传递给函数进行判断，然后返回。函数形式：filter(function,...

2020-03-17 09:14:35 605

原创信息论之香农熵（又名信息熵）最简单-形象讲解

1948 年，香农提出了“信息熵”(shāng) 的概念，解决了对信息的量化度量问题。首先，先介绍一下克劳德 • 香农（Claude Shannon, 1916-2001）香农生于美国密歇根州，本科毕业于“美国大学之母”密歇根大学。他儿时崇拜的英雄人物是大名鼎鼎的、造福全人类的美国大发明家托马斯 • 爱迪生（Thomas Alva Edison, 1847-1931），...

2020-03-14 14:42:11 17853 1

原创【技能】Chrome扩展程序的使用

对于所有工作的小伙伴而言，Chrome并不陌生，但是对于Chorme的功能，可能都停留在，工作中的search信息。小白最近发现了Chrome强大的扩展程序功能。首先，Chrome扩展程序网址为：chrome://extensions/，进入到该网址，你可以看到你已经安装的一些扩展程序。然后，如何增加新的扩展程序呢？点击左上方的扩展程序，出现下面弹框，然后，点...

2020-03-14 11:06:58 4455

原创【NLP】Python词性标注之词性解释

小白在之前文章（https://blog.csdn.net/Jarry_cm/article/details/102903970）已经写过jieba词性标注的文章。在词性标注后，看到一堆英文简写的词性，怎样一一对应又成了难题，这里，小白总结了一下词性的对应关系。1.中文标注和含义对应关系标注名称含义 Ag 形语素形容词性语素。形容词代码为a，语...

2020-03-13 10:24:19 4179

原创【Pytho】报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 2: illegal multiby终极解决方案

最近小白在做中文情感分析的时候，经常使用到文件打开出错的问题，尝试了很多方式，都不成功，这里写下自己的新路历程。1.首先，下面是正常的读文件代码sen_file = open('D:/Users/Downloads/BosonNLP_sentiment_score.txt','r')sen_list = sen_file.readlines()报错如下：网上随便...

2020-03-03 12:24:31 3354 1

原创【shell】shell脚本Linux环境mutt发送邮件（实现单邮件循环发送和根据条件循环发送）

之前用过shell脚本发送报表，不过都是单个脚本发送一个报表，最近使用到根据条件循环发送报表的情况，也从同事那里学到这个技能。这里对shell发送邮件做一些总结。 1.单个脚本实现单封邮件的发送这种就很简单了，直接发送邮件，下面来一个案例。下面python命令是在python环境下运行python代码（用来结果转为excel文件，最终作为附件发送）mutt命令下面再一...

2020-02-28 19:51:20 1425

原创【Python】XGBoost原理小结及Python中的参数详解

对于XGBoost，相信大家都不陌生了，小白也曾经看了很多次，不过每次都没有很系统的学习，都是在使用过程中，遇到什么问题，就查什么问题，对于整个算法都是“星星点点”的学习，最近几天又看到了这个算法，小白就在学习中总结了一下这个算法的要点。1.XGBoost描述 XGBoost是一种集成学习算法，通过回归树，每一次对残差（实际值与预测值之差）进行拟合，最后把预测值相加得到最终的...

2020-02-12 16:27:53 2415 1

原创【数据库】Hive SQL 正则表达式进阶二（regexp_extract函数进阶使用）

在之前文章中（文章如下），小白有讲过正则的三个函数，替换、截取等操作。在工作中，又遇到了其他的问题，这里做一个进阶的讲解文章，欢迎遇到类似问题的小伙伴一起学习交流。初级用法参照下面的文章Hive SQL 正则表达式进阶一（regexp的三个函数）https://blog.csdn.net/Jarry_cm/article/details/87272189场景一有以下几...

2020-01-15 20:23:18 9499

原创【数据库】HIVE SQL之JSON字符串解析的坑

对于hive对JSON字符串的解析小白在之前博文中已经有两篇做过详细的介绍了，这边博文主要记录一下，小白在工作中遇到的一个实例，巨坑。案例如下：{"id":"23|38","index":"1","name":"高星好评","subfilters":,"type":"23"}一眼看上去，是不是符合JSON字符串的风格，然后就开始解析select filters,...

2019-12-19 21:36:59 2593

原创【Python】PySpark安装

小白试了很多方法，直接pip install pyspark失败了，应该是安装包太大了，在anaconda主页上，点击下载安装，界面没有反应，因此就使用了离线下载的方式。首先pip install时，你可以记录下自己需要下载的版本，然后去下面的网址（https://pypi.org/）中去搜索，下载相应的版本。下载完成后，pip install即可...

2019-12-13 19:56:36 3782

原创【Git】Git学习之删除GitHub上的仓库repository

小白之前的博客中已经介绍了Git的基本使用，掌握之前的内容，就可以开始用起来啦！不过，在使用过程中，大家可能会在GitHub中创建很多测试respository，那么如何删除这些测试库，小白这篇文章就介绍一下~1.打开需要删除的仓库，点击红框中的setting2.点击后出现下面页面，然后拉到页面最下方拉到最下方如下页面，点击圆框中按钮3.点击后出现下面页面...

2019-12-11 19:39:37 669

原创【Git】Git学习之远程库操作

之前文章中小白讲了本地仓库和工作区之间的基本操作，这篇博客小白整了了一下远程库的一些操作。首先，确认自己已经申请了GitHub且有了.ssh文件，由于小白之前已经都操作完了，这里就不再重新来一遍，过程很简单，可以任意百度，轻松找到方法。下面是小白电脑中已经存在的内容，其中id_rsa是私钥，id_rsa.pub是公钥，私钥不可外传，公钥可以。其中公钥的内容我们下一步要用到。...

2019-12-10 21:20:49 567

原创【Git】Git学习之创建版本库

对于Git小白是试了一次又一次，每一次都要搜各种教程，由于不经常使用，还是经常忘记，于是决定将每次用到的一些操作命令记录下来，也方便以后的查找，也做一个系列的分享。首先，从百度图片中盗个图：下面是GIT的流程图，先整体介绍下GIT的工作流程，每个小白最开始用GIT时，都需要先创建一个本地的工作文件夹，这个用来本地操作文档，然后可以使用add命令将本地创建的文档上传到暂...

2019-12-10 18:32:09 3443 1

原创【Python】dataframe列数据的修改(map函数)

在对数据进行分析时，如果某一列的值较为分散，那么在画柱状图或者分析时，我们大多会对这列数据处理，处理后再进行分析。这就涉及到对DataFrame的列的处理。看以下的场景，处理前：df_1 = df[(df['country']== 1)]sns.barplot(x = df_1['hotel_score'], y = df_1['uv'])plt.show(...

2019-12-03 19:03:39 8405

空空如也

空空如也