梦游的猴子
码龄10年
关注
提问 私信
  • 博客:18,976
    18,976
    总访问量
  • 13
    原创
  • 1,117,568
    排名
  • 6
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2015-07-07
博客简介:

qq_29632521的博客

查看详细资料
个人成就
  • 获得3次点赞
  • 内容获得4次评论
  • 获得12次收藏
创作历程
  • 2篇
    2022年
  • 11篇
    2021年
成就勋章
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

hive表同步clickhouse并且修改字段类型

表在hive中生成,同步到clickhouse中去,最后连接superset,但是发现superset对字段格式要求比较严格。所以原先的度量是字符串,需要改成bigint。于是,先修改hive中的字段的类型(***.****:为表名称):alter table ***.**** change column col1 col11 string cascade;alter table ***.**** change column col11 col1 string cascade;修改click
原创
发布博客 2022.04.22 ·
3219 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Jupyter notebook安装pyspark

没安装前,百度了一下,看到好多安装时遇到版本冲突很严重的问题。但是看了pyspark官网的文档,发现可以直接用pypi直接安装,发现这个安装非常简单。1、打开cmd2、输入pip install pyspark3、打开Jupyter Notebook,直接import pysparkdone....
原创
发布博客 2022.02.23 ·
2444 阅读 ·
2 点赞 ·
0 评论 ·
3 收藏

xgboost导入报错

xgboost安装报错~
原创
发布博客 2021.12.23 ·
1250 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

文本预处理去除表情符号,只提取中英文及数字

import re#去除表情符号[敲打]def filter_emoji2(content): content = str(content) content2 = re.sub('\[.*?\]','',content) return content2 #只提取中文英文和数字def pick_cn(content): content = str(content) REG_CN ="[\u4e00-\u9fa5]";#包含中文英文数字 for i...
原创
发布博客 2021.08.30 ·
896 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

生成以及调用pmml文件

from sklearn import treefrom sklearn.datasets import load_irisfrom sklearn2pmml.pipeline import PMMLPipelinefrom sklearn2pmml import sklearn2pmmlif __name__ == '__main__': # 经典数据集 iris = load_iris() # print(iris.keys()) # 样本特征 x...
原创
发布博客 2021.08.30 ·
648 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

36进制和10进制转换

#10进制转换成36进制def base36_encode(number): num_str = '0123456789abcdefghijklmnopqrstuvwxyz' if number == 0: return '0' base36 = [] while number != 0: number, i = divmod(number, 36) # 返回 number// 36 , number%36 base...
原创
发布博客 2021.08.30 ·
1033 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive中替换\t

居然被这种小问题,纠结浪费了几分钟,记录一下。在替换/t的时候,一定要再多加三个斜杠。亲测可用。regexp_replace(word, '\\\\t', '')
原创
发布博客 2021.08.18 ·
1109 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive中的map函数

在拼接画像标签的时候,了解到这个很少用的map函数。的确好用,不光节省资源,而且可以添加权重分值,还可以计算封装的标签的数量。代码:flag:标签cnt:权重str_to_map(CONCAT_WS('&',COLLECT_SET(concat(t0.flag,":",cnt))),"&",":" ) mm按照如上拼接之后,就可以把标签封装成一个map格式的字段,供后续使用。...
原创
发布博客 2021.08.18 ·
3730 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

图片获取到转成哈希值,完整代码分享

# -*- coding: utf-8 -*-"""Spyder EditorThis is a temporary script file."""import requestsfrom PIL import Imagefrom io import BytesIOimport matplotlib.pylab as pltimport numpy as npimport cv2import pandas as pddef getImageByUrl(url): # 根据...
原创
发布博客 2021.07.21 ·
1214 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

对TXT文档中文分词积累分词库

#! usr/bin/env python#coding=utf-8import jiebaclass WordCut: def __init__(self,sentence): # 初始化 sentence = [] def ConcatSentences(self,sentence): return','.join(sentence.values) #创建停用词表 def stopwor...
原创
发布博客 2021.07.21 ·
695 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

多版本anaconda不兼容导致无法Import opencv和import seaborn

1、用anaconda的Uninstall-Anaconda3.exe卸载.删除干净2、去anaconda官网下载最新的anaconda包,适合自己的电脑版本。Anaconda3-2020.02-Windows-x86_64.exe3、修改环境变量,如果环境变量path里面有其他的路径,说明没有卸载干净,我就发现有C盘下最早装的anaconda3,最后打开文件所在位置,彻底删除干净4、修改jupyter的文档路径,之前就没搞定,其实就是一个---首先要找到配置文件位置。在开始菜单里找到并
原创
发布博客 2021.07.21 ·
1330 阅读 ·
0 点赞 ·
2 评论 ·
1 收藏

模型如何封装成PMML文件

训练好的模型封装成PMML文件,就可以供数据直接调用。具体代码如下:from sklearn import treefrom sklearn.datasets import load_irisfrom sklearn2pmml.pipeline import PMMLPipelinefrom sklearn2pmml import sklearn2pmmlif __name__ == '__main__': # 经典数据集 iris = load_iris() #...
原创
发布博客 2021.07.20 ·
429 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

如何判断链接为跳转链接

本文主要介绍,如何判断一个链接为跳转链接。并且判断出当前链接的域名以及跳转之后的域名。import numpy as npimport pandas as pdimport requestsimport reimport urllibdef __init__(self,url,text,content): # 初始化 self.url = url self.text = text self.content = content url_target = ...
原创
发布博客 2021.07.20 ·
974 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏