我不是狼-CSDN博客

原创 windows python3.6.8 安装tensorflow 亲测有效

有两种方式可以选择：虚拟环境和本机直接安装1、本机直接安装首先安装python3.6.8（自己按要求安装）版本安装建议如果安装 tensorflow2.1 及以上版本，确认安装好了VC2019，否则imort tensorflow 会报：ImportError: DLL load failed: 找不到指定的模块将python3 添加到系统变量中，这样可以直接调用python3将pip3 也加入到系统变量中，之后调用命令 pip3 install tensorflow (如需指定版.

2020-09-27 19:38:45 1155

原创 bert server 搭建

bert server 搭建

2022-06-30 10:44:18 627

原创 spark 读取hive表

参考资料：https://spark.apache.org/docs/latest/sql-data-sources-hive-tables.html

2021-06-07 15:38:52 254

原创 spark graphx 可视化：不同属性结点指定不同颜色

普通图：

2021-06-03 20:13:24 359

原创 spark graphx 图结构画图/可视化

package net.qihoo.antispam.personal.qinsha.graphximport org.apache.spark.graphx.{Edge, Graph, VertexId}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.ml.clustering.{LDA, LDAModel}import org.apache.spark.ml.feature.CountVecto.

2021-06-03 20:03:42 825

原创 Spark 创建有schema的空dataframe

var DFSchema : StructType = (new StructType)List("xx1","xx2","xx3").foreach(colname=> DFSchema = DFSchema.add(colname,StringType,true))if(DF.isEmpty){ DF = spark.createDataFrame(spark.sparkContext.emptyRDD[Row], DFSchema)}

2021-03-25 10:42:08 411

原创 spark中 hdfs文件路径检测是否存在、删除hdfs路径

spark中，检测hdfs文件夹是否存在和删除文件import org.apache.hadoop.fs.{FileSystem, Path}import org.apache.spark.ml.common.HdfsHelper.isDir1、检测hdfs文件路径是否存在def pathIsExist(spark: SparkSession, path: String): Boolean = {//取文件系统val filePath = new org.apache.hadoop.fs.P

2021-03-24 15:17:39 2818

原创 spark join数据偏移优化

首先强烈推荐该篇文章《https://tech.meituan.com/2016/05/12/spark-tuning-pro.html》写的非常仔细。背景：我在实践过程中遇到了 20亿数据 join 300w数据的情况。同时我的数据中主key分布并不均匀，存在大key。结果：执行过程种有几个task执行非常缓慢，拖慢了整体的运行速度。对比: 直接join：用时40分钟。优化：实践了上述文章中：解决方案七-使用随机前缀和扩容RDD进行join。优化后join的时间为15分钟。提升不少。问题：

2021-02-20 11:28:51 196

原创 tensorflow2.3.0 import tensorflow出现ImportError: DLL load failed: 找不到指定的模块的问题（亲测可用）

版本：Python "3.6.8"报错信息：from tensorflow.python.pywrap_tensorflow_internal import * ImportError: DLL load failed: 找不到指定的模块解决方案：整体环境有问题，我的解决方案是：安装vc2019之后就可以了...

2020-09-27 18:38:26 757 2

原创 sparkdataframe 对多列进行先filter后求均值

import org.apache.spark.sql.{Column, DataFrame, Dataset, Row, SparkSession}spark dataframe 对多列进行先filter后求均值meanDf = df.select(df.columns.map(k=>mean(when(col(k)>0, col(k))).alias(k+“mean”)): _*)spark dataFrame 多列dropjudgeCols：Array[String]var df

2020-07-22 14:50:25 1351

原创 lossfunction，损失函数的作用

Loss function L:input:a function, output :how bad it is;L(f) = L(w,b)lossfunction：可以衡量一组参数的好坏。函数的目标是：找到一组使得loss最小的w和b。方法为：gradient descent...

2020-04-20 09:29:23 860

原创 spark常用小函数

1、keyBy 为rdd按指定key生成key-value形式scala> val a = sc.parallelize(List("dog", "salmon", "salmon", "rat", "elephant"), 3)a: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[123] at paralleliz...

2019-12-06 15:09:39 288

翻译简单5种的异常点检测方法

5中简单的异常点检测方式：1、标准差法：在分布内，一个标准差内的数据为68% ，2个标准差内的数据为95%， 3个标准差内的数据为99.7% 所以3个标准差外的数据，我们可以认为是异常数据。2、画箱型图在whisker以上和以下的数据都认为是异常数据。3、DBScan --基于密度的聚类将数据点划分到cluster中，如果有点划分不到任何一个cluster中...

2019-06-18 19:15:36 9612

原创概率模型-初级介绍

概率(反映随机事件出现的可能性（likelihood)大小)的公理化定义：对于时间A,其概率定为P(A),则其满足以下三个公理：1、0<=P(A)<=1 非负性公理2、p(样本空间)=1 正则性公理3、若有互不相容的事件A1,A2,.....， P(UAj) =古典概型设E是一个试验，满足：1、只有有限多个样本点；2、每个样本点发生的可能性相同。P(A)...

2019-06-04 14:06:24 915

原创 lintcode Ugly Number II python

DescriptionUgly number is a number that only have factors2,3and5.Design an algorithm to find thenth ugly number. The first 10 ugly numbers are1, 2, 3, 4, 5, 6, 8, 9, 10, 12...利用动态规划的思想d...

2019-04-28 13:45:20 208

原创 leintcode Kth Largest Element python

DescriptionFind K-th largest element in an array.参考快速排序的思想class Solution: """ @param n: An integer @param nums: An array @return: the Kth largest element """ def sort_in...

2019-04-28 13:38:07 246

原创 TensorFlow decode_csv TextLineDataset 读取数据

1decode_csv读取数据import tensorflow as tf#创建文件队列filenames ['./s0000025_1.csv','./s0000025_2.csv']filename_queue = tf.train.string_input_producer(filenames,shuffle=True)#shuffle=True 文件队列随机读取，默认...

2019-04-11 14:36:38 1850

原创 DNN或深度学习中常用函数

1、tf.multiply(x,y) 对应元素相乘x: 一个类型为:half, float32, float64, uint8, int8, uint16, int16, int32, int64, complex64, complex128的张量。y: 一个类型跟张量x相同的张量。返回值： x * y element-wise.import tensorflow as tf...

2019-03-28 18:43:32 336

原创为什么使用multiarmed bandit algorithms（多臂赌博机算法）--与A/Btest的对比

当前，问题优化常用的测试方法是使用A/Btest, 即使用随机的相同规模的流量分别进行A组结果或B组结果测试。那么我们来看下A/Btest 的组成：一个短时间的纯探索阶段，你需要找相同数量的用户进入A,B组。一个长时间的利用阶段，即所有用户进入结果更好的实验组，然后不再回退。为什么说这是一个有缺点的策略：这是一个探索与利用完全分离的策略，要么纯探索要...

2019-03-18 11:07:16 1014

原创什么是EE（exploration and exploitation）问题

Exploration and Exploitation 问题（EE问题）意译为：探索与利用问题，以商业口吻为例，探索新的利润模式和保持当前利润率的冲突问题。而以上这样的一种情形也被成为Explore-Exploit Dilemma (EE困境)：有两个完全不同的目标，一个是你想要保持你现在情况即利润（利用），另一个是你要尝试新的想法但是可能会造成利润损失（探索）。 ...

2019-03-18 10:51:24 3701

原创 docker 创建镜像，创建容器命令

启动dockerfile建立镜像命令 docker bulid -t imagename . （使用该命令，dockerfile的名字必须为Dockerfile） /docker bulid -tag imagename . /docker bulid -tag imagename -f dockerfilename . (do...

2019-03-06 17:27:22 7727 3

转载 TensorFlow 模型持久化

模型保存和还原都是通过TensorFlow的一个API实现的，这个API就是tf.train.saver类保存模型 eg:import tensorflow as tf#声明两个变量并计算他们的和v1 = tf.Variable(tf.constant(1.0,shape=[1],name="v1"))v2 = tf.Variable(tf.constant(2.0,shape=...

2019-03-05 15:35:49 256

原创 TensorFlow中变量初始化函数

tf.constant_initializer : 将变量初始化为常量。eg: >>> import numpy as np >>> import tensorflow as tf >>> value = [0, 1, 2, 3, 4, 5, 6, 7] >>> init = tf.constant_i...

2019-03-05 11:44:13 438

u012073033的专栏