风筝相信线-CSDN博客

原创 dataworks常用命令

dataworks中的常用命令

2022-07-13 14:14:36 825 1

此文件是读取odps中的表字段，再调用某接口，返回生成的url连接，原表信息id，content，需要产生的新数据为原id，url# -*- coding: utf-8 -*-# @Time : 2021/12/6 9:59# @Author : llh# @File : test_api.py# @Synopsis : 此文件是读取odps中的表字段，再调用某接口，返回生成的url连接import reimport jsonimport requestsfrom odps import

2021-12-08 14:50:09 2467

原创自定义python日常使用的小函数

记录自己日常使用的小utils函数二维列表解读：根据给定的长和宽，以及初始值，返回一个二维列表。def initialize_2d_list(w, h, val=None): return [[val for x in range(w)] for y in range(h)]例：>>> initialize_2d_list(2,2)[[None, None], [None, None]]>>> initialize_2d_list(2,2,0

2021-07-07 10:43:29 176

原创 Kettle导入ES7.8.1时报NullPointerException解决方案

记录自己昨天遇到的两个bug。kettle设置完成后，无法连接ES。是因为自己的插件版本过低导致的无法连接，kettle7.1中支持的es连接插件，只支持es2.2版本，需要替换elasticsearch-bulk-insert-plugin插件源码及插件见：链接: https://pan.baidu.com/s/1yEjLaWJZLcMElGtKYKXtug 密码: pb8j下载完后，在解压文件夹中，拷贝以下文件，替换到kettledata-integration\plugins\elast

2021-03-09 14:12:58 1886

原创 Datax增量导入和几种常见的数据迁移模板

列出几种常用的Datax的模板，读写的库可以随意互换1、读PG库写入MySQL{ "job": { "content": [ { "reader": { "name": "postgresqlreader", "parameter": { "username": "postgres", "password": "123456",

2020-12-16 16:25:21 2288 6

原创使用LTP库报错 KeyError: ‘transformer_config‘的解决方案

近期在服务器上新装了个LTP库，运行时报错KeyError: ‘transformer_config’如图搞了半天，终于从官方文档找到了原因，是模型版本的问题。如果你的Linux系统是在内网的，则可能需要单独下载跟自己ltp版本所对应的模型。官方注明了LTP 4.1.X 与旧版本 v1,v2 模型不兼容，需要更换成v3版本https://github.com/HIT-SCIR/ltp/blob/master/MODELS.md注意：ltp 库读取 .tgz 格式的模型时会自动将其解压到同一路径

2020-12-16 10:41:39 1883 1

原创解决pip下载速度太慢

废话不多说，pip 提速方法主要有两种，一种是临时提速，一种是永久提速。临时提速在 pip install 包名后面加上 -i + 镜像地址，这样 pip 安装时即可成倍的提速了。国内主要镜像地址如下：清华：https://pypi.tuna.tsinghua.edu.cn/simple阿里云：http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/华中理工大学：http:/

2020-12-01 09:53:39 8769 4

原创 Python中的import 到底在干啥？

2020-11-17 11:40:43 1055 1

原创 Pandas读/写PG数据库

直接上代码，使用pandas库读写操作pgsql数据库，第一段代码数据库操作类pg_connecting.py，第二段数据库连接信息类setting.py，第三段实例化# coding: utf-8# --利用pandas库读/写pg数据库，pg_connecting.py--import psycopg2import sqlalchemyimport pandas as pdfrom datetime import datetimefrom collections import Ord

2020-11-17 10:05:39 2001 1

原创 Python Faker库的使用

项目开发初期，为了测试方便，我们总要造不少假数据到系统中，尽量模拟真实环境。比如要创建一批用户名，创建一段文本，电话号码，街道地址、IP地址等等。平时我们基本是键盘一顿乱敲，随便造个什么字符串出来，当然谁也不认识谁。现在你不要这样做了，用Faker就能满足你的一切需求。什么是FakerFaker是一个Python包，开源的GITHUB项目，主要用来创建伪数据，使用Faker包，无需再手动生成或者手写随机数来生成数据，只需要调用Faker提供的方法，即可完成数据的生成。项目地址：https://gi

2020-11-13 09:39:20 2475

原创 Doc2vec的两种算法类型介绍

Doc2vec的两种算法类型dm 定义了训练的算法。默认是dm=1,使用 ‘distributed memory’ (PV-DM)，否则 distributed bag of words (PV-DBOW)。1、句向量的分布式记忆的版本（PV-DM）在我们的句（Paragraph）向量模型中，每一个句子都被映射成一个独立的向量，这个句向量作为矩阵的一列；同时，每一个词也被映射成一个独立的向量，这个词向量作为矩阵的一列。对这个句向量和这些词向量求平均或者首尾相连，用来预测文本中的下一个词。在本研

2020-11-09 15:00:13 1818

原创 Doc2Vec 模型参数

Doc2Vec 模型参数详解model = Doc2Vec( dm=0, vector_size=100, window=5, min_count=5, workers=4, alpha=0.025, min_alpha=0.001, epochs=15)dm 定义了训练的算法。默认是dm=1,使用 ‘distributed memory’ (PV-DM)，否则 distributed bag of words (PV-DBOW)。vector_size 是特征向量的纬度。wi

2020-11-09 10:37:26 2854

qq_39431417的博客