自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 dataworks常用命令

dataworks中的常用命令

2022-07-13 14:14:36 802 1

原创 Python调用接口

此文件是读取odps中的表字段,再调用某接口,返回生成的url连接,原表信息id,content,需要产生的新数据为原id,url# -*- coding: utf-8 -*-# @Time : 2021/12/6 9:59# @Author : llh# @File : test_api.py# @Synopsis : 此文件是读取odps中的表字段,再调用某接口,返回生成的url连接import reimport jsonimport requestsfrom odps import

2021-12-08 14:50:09 2451

原创 自定义python日常使用的小函数

记录自己日常使用的小utils函数二维列表解读:根据给定的长和宽,以及初始值,返回一个二维列表。def initialize_2d_list(w, h, val=None): return [[val for x in range(w)] for y in range(h)]例:>>> initialize_2d_list(2,2)[[None, None], [None, None]]>>> initialize_2d_list(2,2,0

2021-07-07 10:43:29 171

原创 Kettle导入ES7.8.1时报NullPointerException解决方案

记录自己昨天遇到的两个bug。kettle设置完成后,无法连接ES。是因为自己的插件版本过低导致的无法连接,kettle7.1中支持的es连接插件,只支持es2.2版本,需要替换elasticsearch-bulk-insert-plugin插件源码及插件见:链接: https://pan.baidu.com/s/1yEjLaWJZLcMElGtKYKXtug 密码: pb8j下载完后,在解压文件夹中,拷贝以下文件,替换到kettledata-integration\plugins\elast

2021-03-09 14:12:58 1876

原创 Datax增量导入和几种常见的数据迁移模板

列出几种常用的Datax的模板,读写的库可以随意互换1、读PG库写入MySQL{ "job": { "content": [ { "reader": { "name": "postgresqlreader", "parameter": { "username": "postgres", "password": "123456",

2020-12-16 16:25:21 2229 6

原创 使用LTP库报错 KeyError: ‘transformer_config‘的解决方案

近期在服务器上新装了个LTP库,运行时报错KeyError: ‘transformer_config’如图搞了半天,终于从官方文档找到了原因,是模型版本的问题。如果你的Linux系统是在内网的,则可能需要单独下载跟自己ltp版本所对应的模型。官方注明了LTP 4.1.X 与旧版本 v1,v2 模型不兼容,需要更换成v3版本https://github.com/HIT-SCIR/ltp/blob/master/MODELS.md注意:ltp 库读取 .tgz 格式的模型时会自动将其解压到同一路径

2020-12-16 10:41:39 1864 1

原创 解决pip下载速度太慢

废话不多说,pip 提速方法主要有两种,一种是临时提速,一种是永久提速。临时提速在 pip install 包名 后面加上 -i + 镜像地址,这样 pip 安装时即可成倍的提速了。国内主要镜像地址如下:清华:https://pypi.tuna.tsinghua.edu.cn/simple阿里云:http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/华中理工大学:http:/

2020-12-01 09:53:39 8733 4

原创 Python中的import 到底在干啥?

一直好奇import ***这个语句到底是在干什么,有时候在PyCharm中运行好好的程序,跑道python原生环境中就会报错例如像下面这样的一个项目结构:Projetc_example|-- A |-- alpha.py |-- beta.py|-- B |-- theta.py|-- main |-- main.py假设要在main.py中导入theta.py:# main/main.pyfrom B import theta在原生环境中就会出现意想不

2020-11-17 11:40:43 1045 1

原创 Pandas读/写PG数据库

直接上代码,使用pandas库读写操作pgsql数据库,第一段代码数据库操作类pg_connecting.py,第二段数据库连接信息类setting.py,第三段实例化# coding: utf-8# --利用pandas库读/写pg数据库,pg_connecting.py--import psycopg2import sqlalchemyimport pandas as pdfrom datetime import datetimefrom collections import Ord

2020-11-17 10:05:39 1964 1

原创 Python Faker库的使用

项目开发初期,为了测试方便,我们总要造不少假数据到系统中,尽量模拟真实环境。比如要创建一批用户名,创建一段文本,电话号码,街道地址、IP地址等等。平时我们基本是键盘一顿乱敲,随便造个什么字符串出来,当然谁也不认识谁。现在你不要这样做了,用Faker就能满足你的一切需求。什么是FakerFaker是一个Python包,开源的GITHUB项目,主要用来创建伪数据,使用Faker包,无需再手动生成或者手写随机数来生成数据,只需要调用Faker提供的方法,即可完成数据的生成。项目地址:https://gi

2020-11-13 09:39:20 2440

原创 Doc2vec的两种算法类型介绍

Doc2vec的两种算法类型dm 定义了训练的算法。默认是dm=1,使用 ‘distributed memory’ (PV-DM),否则 distributed bag of words (PV-DBOW)。1、句向量的分布式记忆的版本(PV-DM)在我们的句(Paragraph)向量模型中,每一个句子都被映射成一个独立的向量,这个句向量作为矩阵 的一列;同时,每一个词也被映射成一个独立的向量,这个词向量作为矩阵 的一列。对这个句向量和这些词向量求平均或者首尾相连,用来预测文本中的下一个词。在本研

2020-11-09 15:00:13 1786

原创 Doc2Vec 模型参数

Doc2Vec 模型参数 详解model = Doc2Vec( dm=0, vector_size=100, window=5, min_count=5, workers=4, alpha=0.025, min_alpha=0.001, epochs=15)dm 定义了训练的算法。默认是dm=1,使用 ‘distributed memory’ (PV-DM),否则 distributed bag of words (PV-DBOW)。vector_size 是特征向量的纬度。wi

2020-11-09 10:37:26 2834

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除