- 博客(87)
- 资源 (26)
- 收藏
- 关注
原创 import _ssl # if we can’t import it, let the error propagate ImportError: DLL load failed while impo
import _ssl # if we can’t import it, let the error propagate ImportError: DLL load failed while importing _ssl: 找不到指定的模块。浪费半天时间,特地记录一下,仅供分享。
2023-07-11 14:33:40 487
原创 datax template build
dataxt template json build, for rapid ETL development work.
2023-01-16 16:25:29 120
原创 clinkhouse导入实例(source: kafka or hive)
【代码】clinkhouse导入实例(source: kafka or hive)
2023-01-12 15:03:15 118
原创 cdh安装hive出现Required table missing : “VERSION“ in Catalog ““ Schema ““. DataNucleus requires this tab
CDH 安装hive 报错
2022-09-13 17:23:54 1492
原创 WebService wsdl发送短信功能实现
package com.clinet;public class UCPClinetFactory { private static final ThreadLocal<UCPClient> threadLocal = new ThreadLocal<UCPClient>(); private static String defUrl = "http://ip:port/ucp/services/UCPService?wsdl"; private UCPClient cli
2022-05-21 15:22:27 501
原创 Flask UnsupportedOperation: not writable
报错:UnsupportedOperation: not writable参考解决:将def echo(message=None, file=None, nl=True, err=False, color=None):替换成:def echo(message=None, file=sys.stdout, nl=True, err=False, color=None):若问题没有解决,换IDE试试(注意你使用的IDE是否是spyder),基本上都可以解决。...
2022-04-08 14:11:44 682
原创 golang编译常见的问题
(1)github资源拉取过慢:解决:使用github代理查找ipaddress: https://www.ipaddress.com/ip-lookup输入:github.com 和 github.global.ssl.fastly.net设置:C:\Windows\System32\drivers\etc\hosts文件映射例如:140.82.112.4 github.com199.232.69.194 github.global.ssl.fastly.net配置生效:ipconf
2022-01-05 11:16:22 1187
原创 Java MD5工具类
import java.security.MessageDigest;/** * Created by lidd * 2021/10/20 9:39 */public class MD5 { /** * MD5加码 生成32位md5码 */ public static String string2MD5(String inStr){ MessageDigest md5 = null; try{ md5
2022-01-04 09:51:48 730
原创 Spark读取Mysql实现
import com.alibaba.fastjson.JSONObject;import com.mx.config.mysql.MysqlConfig;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.rdd.JdbcRDD;import scala.reflect.ClassManifestFactory$;im
2022-01-04 09:45:34 1265
原创 HDFS java 工具类
import org.apache.commons.io.FileUtils;import org.apache.commons.io.FilenameUtils;import org.apache.commons.io.IOUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.apache.hadoop.mapred.JobConf;import org.apache
2022-01-04 09:08:02 523 2
原创 Hbase查询Java实现
/** * hbase 根据rowkey 条件过滤 * * @param hbaseFimilay hbase 列族 * @param hbaseColumn hbase 列 * @param userList 用户列表 * @throws Exception 异常类 */public Map<String, HashSet<String>> scanWithFilterByRowKey(String hbaseFimilay, String hbaseCo
2022-01-04 08:56:59 668
原创 根据经纬度播放行车轨迹
经纬度经过处理, 仅供轨迹展示。<!doctype html><html><head> <meta charset="utf-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="initial-scale=1.0, user-scalable=no, width=device-width"
2021-08-24 16:38:52 244
原创 统计列表中重复出现最多数值
/** * 统计重复出现的次数 * @param a 数据列表 * @return */public static Long computeArraycount(ArrayList<Long> a) { HashMap hmap = new HashMap(); // 统计每个数字出现的次数 for (int i = 0; i < a.size(); i++) { if (hmap.get(a.get(i)) == null) {
2021-08-24 10:55:28 192
原创 “知识诅咒“带来的信息沟通障碍
最近看了一片文章,很好的回答了知识非对等的情况下产生的“交流障碍”,明确了问题的出处,才能更好的解决学习工作生活中遇到的一些看起来无法理解的问题。原文如下:在平时的教学日常中,我们会经常这样交流:这孩子怎么就这么不开窍呢?明明是个很简单的问题,也讲了好几种方法,最后还是一脸懵。比如我刚刚教过的两个文科班,上课时我总是试图把问题分解,用层层递进的方式进行讲授,但学习效果依然很“糟糕”。到底问题出在哪里呢?为什么我们感觉已经付出了百分之百的努力,却没有实效呢?后来在阅读《演讲的力量》一书时,偶然了解到一个
2021-08-11 11:30:50 1011
原创 SparkRDD 转存 HIVE
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.Optional;import org.apache.spark.sql.*;import o
2021-07-06 16:47:54 623
原创 hbase条件查询java实现
多条件过滤:/*** 通过tileId获取轨迹信息* @param tableName hbase 表名* @param family* @param tile_id 条件值字符串* @return* @throws IOException*/public ArrayList<String> filterByRouteFingerprintId(String tableName, String family, String tile_id) throws IOExceptio
2021-06-07 15:51:40 844
原创 BA、DA、AA、TA参考
通过以下四种组织架构的内容及内在联系,方便梳理。BA:Business Architecture,业务架构DA:Data Architecture,数据架构AA:Applications Architecture,应用架构TA:Technology Architecture,技术架构
2021-04-22 15:47:48 3867
原创 sklearn 回归分析汇总
data:train.csvf1,f2,f3,f4,f525290,806.6666667,1405,39810,2211.66666725032,772.6111111,1390.666667,38939,2163.27777824751,763.9444444,1375.055556,38502,213924550,757.7222222,1363.888889,38189,2121.61111124294,749.8333333,1349.666667,37791,2099.52400
2021-02-26 15:58:55 1076 1
原创 hive:编写UDF自定义函数
UDF(User-Defined Functions)即是用户定义的hive函数。hive自带的函数并不能完全满足业务需求,这时就需要我们自定义函数了。创建maven工程:工程目录结构:(1) 加载pom文件:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apac
2021-01-18 16:56:47 291
原创 使用sklearn实现birch聚类分析
一般来说,BIRCH算法适用于样本量较大的情况,这点和Mini Batch K-Means类似,但是BIRCH适用于类别数比较大的情况,而Mini Batch K-Means一般用于类别数适中或者较少的时候。BIRCH除了聚类还可以额外做一些异常点检测和数据初步按类别规约的预处理。但是如果数据特征的维度非常大,比如大于20,则BIRCH不太适合,此时Mini Batch K-Means的表现较好。数据格式: test.dat新春 备 年货 , 新年 联欢晚会新春 节目单 , 春节 联欢晚会 红火.
2021-01-12 11:14:09 1746 7
原创 windows服务器下vue工程nginx部署
vue 工程打包:vue.config.js 配置文件 publicPath: ‘/’ 修改成 publicPath: ‘./’router.js 实例中mode 修改成’hash’指定打包操作 npm run buid:prod根目录下生成文件格式如下:windows安装nginx并部署vue工程:官网下载nginx: nginx.org下载,选择windows版本,生成nginx-1.19.6.zip,并解压。1. 进入解压目录: cd nginx-1.19
2020-12-30 12:54:48 356 1
原创 Go 创建tcp服务器
server:服务器代码package mainimport ( "fmt" "net")func main() { fmt.Println("Starting the server ...") // 创建 listener listener, err := net.Listen("tcp", "localhost:50000") if err != nil { fmt.Println("Error listening", err.Error()) return //终止程
2020-12-23 12:18:45 387
原创 六种思维方式有感
最近读了一本关于人思维方式的书籍,他将思维方式总结成六种“帽子”;感觉还是很有道理,在实际的工作学习中不防转变一下思维,可能对问题解决会有不一样方式。从我个人的角度出发受用,仅供csdn博友参考。白色帽子:想象一台计算机,它按需要给出事实和数字。计算机是中性的、客观的。它不提供任何解释和意见。当戴上白色思维帽时,思考者应模仿计算机。询问信息的人应把问题具体化,以获取特定的信息或填补信息方面的空白。在实际运用时可使用双向信息系统,首先是验证过或证明过的事实——这是第一等级的事实。然后是被认为是真实的,
2020-11-13 16:44:35 556 1
原创 图像分类任务 要点参考
模型选择服务器部署:ResNet_vd、Res2Net_vd、DenseNet、Xception精度尽可能地高,对模型存储大小或者预测速度的要求不是很高; 移动端部署:MobileNetV3、GhostNet;参数初始化ImageNet-1k训练得到的预训练模型进行初始化(目标数据集不是很大) 自己手动设计的网络: (1) Xavier初始化,针对Sigmoid函数提出的 (2) MSRA初始化, 使用较多RELU激活函数时网络参数冗余(1) 剪枝: 相对不重要的权.
2020-11-10 14:43:34 477
原创 windows 运行PaddleClas
windows下 运行PaddleClas版本:python: 3.7.1paddlepaddle: 1.8.4(1) 下载PaddleClas源码https://github.com/PaddlePaddle/PaddleClas(2) 进入工程主目录cd path_to_PaddleClas(3) 下载并解压flowers102数据集cd dataset/flowers102wget https://www.robots.ox.ac.uk/~vgg/data/flowers/
2020-11-05 15:06:49 524 7
原创 springboot 整合 redis开发
redis:REmote DIctionary Server(远程字典服务器)。是完全开源免费的,用C语言编写的, 遵守BCD协议。是一个高性能的(key/value)分布式内存数据库。(1) redis搭建(window10):下载地址:https://github.com/MSOpenTech/redis/releases(2) 安装Redis-x64-3.0.504.exe,通过redis页面安装引导完成安装;(3) cmd 运行如下命令,启动redis: redis-server.e
2020-10-23 15:15:18 207
原创 kmeans python 实现
# -*- coding: utf-8 -*-"""K均值聚类算法给定初始簇的个数,迭代更改样本与簇的隶属关系,更新簇的中心为样本的均值"""from collections import defaultdictimport numpy as npimport copyfrom itertools import cycleimport matplotlib.pyplot as pltimport pandas as pdclass KMEANS(object): def _
2020-10-19 16:04:23 268 1
原创 删除图片——字节数小于指定阈值
# -*- coding: utf-8 -*-"""Created on Wed Sep 23 19:02:11 2020@author: USER"""import osdef delete_small_image(dirname, threshold_size): result = [] for maindir, subdir, file_name_list in os.walk(dirname): for filename in file_name_list
2020-09-23 19:23:26 123
原创 爬取百度图片程序
# -*- coding: utf-8 -*-"""Created on Wed Sep 23 16:43:28 2020@author: USER"""import reimport uuidimport requestsimport osimport numpyimport imghdrfrom PIL import Imageimport urllib# 获取百度图片下载图片def download_image(key_word, save_name, downlo
2020-09-23 17:23:53 373
原创 spark-sql命令行执行模板
spark运行参数根据实际情况自行设置,仅供参考。spark-sql --conf spark.scheduler.listenerbus.eventqueue.size=90000000--driver-cores 4 --driver-memory 10g --executor-memory 80g --num-executors 40 --executor-cores 20 --master yarn << EOF**HIVESQL**EOF...
2020-09-21 09:18:59 556
原创 贝叶斯概率与频数概率(简要)
贝叶斯概率以18世纪一位神学家托马斯。贝叶斯(Thomas Bayes)的名字命名。贝叶斯概率引入先验概率知识和逻辑推理来处理不确定性命题。另一种概率解释称为频数概率(frequency probability),踏实从数据本身获得的结论,并不考虑逻辑推理和先验知识。...
2020-08-20 11:47:20 318
原创 python pandas读取read_csv函数设定列名
在python 读取csv文件的时候,有时需要修改目标列的数据类型,这需要在read_csv函数中指定。(1) 读取同时设定标题msisdn_list = pd.read_csv(add_file, header=None, names=['SRC_ADDR', 'SRC_BELONG_PROV','SRC_BELONG_PROV'], dtype={'SRC_ADDR': str, 'SRC_BELONG_PROV': str, 'SRC_BRAND': str})(2) 读取后设
2020-08-20 10:20:31 5354
原创 request模块访问后台服务并解析(python)
# -*- coding: utf-8 -*-import json, sysimport requestsREQUEST_URL = "http://服务ip:服务端口/matc/idetity/1"HEADER = {'Content-Type':'application/json; charset=utf-8'}def output_msisdn_result(result, output_file): with open(output_file, 'w', encoding="
2020-08-06 16:44:32 308
原创 hive表数据倾斜(已解决)
在执行hive表过程中发现在reduce过程中出现java 堆内存满了,多次执行问题重复,于是考虑到是一个hive表数据倾斜的原因(因为在之前不久服务器迁移来的)1.create B like A;2.插入数据set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;insert overwrite table B PARTITION (inc_day)select * from A;
2020-07-13 13:45:12 353
fashion-mnist.zip
2020-06-03
Kubeflow.pptx
2019-05-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人