自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 hive表同步clickhouse并且修改字段类型

表在hive中生成,同步到clickhouse中去,最后连接superset,但是发现superset对字段格式要求比较严格。所以原先的度量是字符串,需要改成bigint。于是,先修改hive中的字段的类型(***.****:为表名称):alter table ***.**** change column col1 col11 string cascade;alter table ***.**** change column col11 col1 string cascade;修改click

2022-04-22 14:11:18 3138

原创 Jupyter notebook安装pyspark

没安装前,百度了一下,看到好多安装时遇到版本冲突很严重的问题。但是看了pyspark官网的文档,发现可以直接用pypi直接安装,发现这个安装非常简单。1、打开cmd2、输入pip install pyspark3、打开Jupyter Notebook,直接import pysparkdone....

2022-02-23 16:25:00 2286

原创 xgboost导入报错

xgboost安装报错~

2021-12-23 18:46:23 1180

原创 文本预处理去除表情符号,只提取中英文及数字

import re#去除表情符号[敲打]def filter_emoji2(content): content = str(content) content2 = re.sub('\[.*?\]','',content) return content2 #只提取中文英文和数字def pick_cn(content): content = str(content) REG_CN ="[\u4e00-\u9fa5]";#包含中文英文数字 for i...

2021-08-30 19:47:52 827

原创 生成以及调用pmml文件

from sklearn import treefrom sklearn.datasets import load_irisfrom sklearn2pmml.pipeline import PMMLPipelinefrom sklearn2pmml import sklearn2pmmlif __name__ == '__main__': # 经典数据集 iris = load_iris() # print(iris.keys()) # 样本特征 x...

2021-08-30 19:44:43 580 1

原创 36进制和10进制转换

#10进制转换成36进制def base36_encode(number): num_str = '0123456789abcdefghijklmnopqrstuvwxyz' if number == 0: return '0' base36 = [] while number != 0: number, i = divmod(number, 36) # 返回 number// 36 , number%36 base...

2021-08-30 19:40:10 941

原创 hive中替换\t

居然被这种小问题,纠结浪费了几分钟,记录一下。在替换/t的时候,一定要再多加三个斜杠。亲测可用。regexp_replace(word, '\\\\t', '')

2021-08-18 18:02:17 1029

原创 hive中的map函数

在拼接画像标签的时候,了解到这个很少用的map函数。的确好用,不光节省资源,而且可以添加权重分值,还可以计算封装的标签的数量。代码:flag:标签cnt:权重str_to_map(CONCAT_WS('&',COLLECT_SET(concat(t0.flag,":",cnt))),"&",":" ) mm按照如上拼接之后,就可以把标签封装成一个map格式的字段,供后续使用。...

2021-08-18 17:57:56 3670

原创 图片获取到转成哈希值,完整代码分享

# -*- coding: utf-8 -*-"""Spyder EditorThis is a temporary script file."""import requestsfrom PIL import Imagefrom io import BytesIOimport matplotlib.pylab as pltimport numpy as npimport cv2import pandas as pddef getImageByUrl(url): # 根据...

2021-07-21 12:51:21 1119 1

原创 对TXT文档中文分词积累分词库

#! usr/bin/env python#coding=utf-8import jiebaclass WordCut: def __init__(self,sentence): # 初始化 sentence = [] def ConcatSentences(self,sentence): return','.join(sentence.values) #创建停用词表 def stopwor...

2021-07-21 12:45:38 645

原创 多版本anaconda不兼容导致无法Import opencv和import seaborn

1、用anaconda的Uninstall-Anaconda3.exe卸载.删除干净2、去anaconda官网下载最新的anaconda包,适合自己的电脑版本。Anaconda3-2020.02-Windows-x86_64.exe3、修改环境变量,如果环境变量path里面有其他的路径,说明没有卸载干净,我就发现有C盘下最早装的anaconda3,最后打开文件所在位置,彻底删除干净4、修改jupyter的文档路径,之前就没搞定,其实就是一个---首先要找到配置文件位置。在开始菜单里找到并

2021-07-21 12:42:14 1216 2

原创 模型如何封装成PMML文件

训练好的模型封装成PMML文件,就可以供数据直接调用。具体代码如下:from sklearn import treefrom sklearn.datasets import load_irisfrom sklearn2pmml.pipeline import PMMLPipelinefrom sklearn2pmml import sklearn2pmmlif __name__ == '__main__': # 经典数据集 iris = load_iris() #...

2021-07-20 14:36:32 393

原创 如何判断链接为跳转链接

本文主要介绍,如何判断一个链接为跳转链接。并且判断出当前链接的域名以及跳转之后的域名。import numpy as npimport pandas as pdimport requestsimport reimport urllibdef __init__(self,url,text,content): # 初始化 self.url = url self.text = text self.content = content url_target = ...

2021-07-20 14:31:28 903

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除