自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 windows python3.6.8 安装tensorflow 亲测有效

有两种方式可以选择:虚拟环境和本机直接安装1、本机直接安装首先安装python3.6.8(自己按要求安装)版本 安装建议如果安装 tensorflow2.1 及以上版本,确认安装好了VC2019,否则imort tensorflow 会报:ImportError: DLL load failed: 找不到指定的模块 将python3 添加到系统变量中,这样可以直接调用python3将pip3 也加入到系统变量中,之后 调用命令 pip3 install tensorflow (如需指定版.

2020-09-27 19:38:45 1052

原创 bert server 搭建

bert server 搭建

2022-06-30 10:44:18 566 1

原创 spark 读取hive表

参考资料:https://spark.apache.org/docs/latest/sql-data-sources-hive-tables.html

2021-06-07 15:38:52 200

原创 spark graphx 可视化:不同属性结点指定不同颜色

普通图:

2021-06-03 20:13:24 302

原创 spark graphx 图结构 画图/可视化

package net.qihoo.antispam.personal.qinsha.graphximport org.apache.spark.graphx.{Edge, Graph, VertexId}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.ml.clustering.{LDA, LDAModel}import org.apache.spark.ml.feature.CountVecto.

2021-06-03 20:03:42 737

原创 Spark 创建有schema的空dataframe

var DFSchema : StructType = (new StructType)List("xx1","xx2","xx3").foreach(colname=> DFSchema = DFSchema.add(colname,StringType,true))if(DF.isEmpty){ DF = spark.createDataFrame(spark.sparkContext.emptyRDD[Row], DFSchema)}

2021-03-25 10:42:08 335

原创 spark中 hdfs文件路径检测是否存在、删除hdfs路径

spark中,检测hdfs文件夹是否存在 和 删除文件import org.apache.hadoop.fs.{FileSystem, Path}import org.apache.spark.ml.common.HdfsHelper.isDir1、检测hdfs文件路径是否存在def pathIsExist(spark: SparkSession, path: String): Boolean = {//取文件系统val filePath = new org.apache.hadoop.fs.P

2021-03-24 15:17:39 2583

原创 spark join数据偏移优化

首先强烈推荐该篇文章《https://tech.meituan.com/2016/05/12/spark-tuning-pro.html》写的非常仔细。背景:我在实践过程中遇到了 20亿数据 join 300w数据的情况。同时我的数据中主key分布并不均匀,存在大key。结果:执行过程种有几个task执行非常缓慢,拖慢了整体的运行速度。对比: 直接join:用时40分钟。优化:实践了上述文章中:解决方案七-使用随机前缀和扩容RDD进行join。 优化后join的时间为15分钟。提升不少。问题:

2021-02-20 11:28:51 140

原创 tensorflow2.3.0 import tensorflow出现ImportError: DLL load failed: 找不到指定的模块的问题(亲测可用)

版本:Python "3.6.8"报错信息:from tensorflow.python.pywrap_tensorflow_internal import * ImportError: DLL load failed: 找不到指定的模块解决方案:整体环境有问题,我的解决方案是:安装vc2019之后就可以了...

2020-09-27 18:38:26 685 2

原创 sparkdataframe 对多列进行先filter后求均值

import org.apache.spark.sql.{Column, DataFrame, Dataset, Row, SparkSession}spark dataframe 对多列进行先filter后求均值meanDf = df.select(df.columns.map(k=>mean(when(col(k)>0, col(k))).alias(k+“mean”)): _*)spark dataFrame 多列dropjudgeCols:Array[String]var df

2020-07-22 14:50:25 1290

原创 lossfunction, 损失函数的作用

Loss function L:input:a function, output :how bad it is;L(f) = L(w,b)lossfunction:可以衡量一组参数的好坏。函数的目标是:找到一组使得loss最小的w和b。方法为:gradient descent...

2020-04-20 09:29:23 792

原创 spark常用小函数

1、keyBy 为rdd按指定key生成key-value形式scala> val a = sc.parallelize(List("dog", "salmon", "salmon", "rat", "elephant"), 3)a: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[123] at paralleliz...

2019-12-06 15:09:39 214

翻译 简单5种的异常点检测方法

5中简单的异常点检测方式:1、标准差法:在分布内,一个标准差内的数据为68% ,2个标准差内的数据为95%, 3个标准差内的数据为99.7% 所以3个标准差外的数据,我们可以认为是异常数据。2、画箱型图在whisker以上和以下的数据都认为是异常数据。3、DBScan --基于密度的聚类将数据点划分到cluster中,如果有点划分不到任何一个cluster中...

2019-06-18 19:15:36 9309

原创 概率模型-初级介绍

概率(反映随机事件出现的可能性(likelihood)大小)的公理化定义:对于时间A,其概率定为P(A),则其满足以下三个公理:1、0<=P(A)<=1 非负性公理2、p(样本空间)=1 正则性公理3、若有互不相容的事件A1,A2,....., P(UAj) =古典概型设E是一个试验,满足:1、只有有限多个样本点;2、每个样本点发生的可能性相同。P(A)...

2019-06-04 14:06:24 815

原创 lintcode Ugly Number II python

DescriptionUgly number is a number that only have factors2,3and5.Design an algorithm to find thenth ugly number. The first 10 ugly numbers are1, 2, 3, 4, 5, 6, 8, 9, 10, 12...利用动态规划的思想d...

2019-04-28 13:45:20 161

原创 leintcode Kth Largest Element python

DescriptionFind K-th largest element in an array.参考快速排序的思想class Solution: """ @param n: An integer @param nums: An array @return: the Kth largest element """ def sort_in...

2019-04-28 13:38:07 211

原创 TensorFlow decode_csv TextLineDataset 读取数据

1decode_csv读取数据import tensorflow as tf#创建文件队列filenames ['./s0000025_1.csv','./s0000025_2.csv']filename_queue = tf.train.string_input_producer(filenames,shuffle=True)#shuffle=True 文件队列随机读取,默认...

2019-04-11 14:36:38 1797

原创 DNN或深度学习中常用函数

1、tf.multiply(x,y) 对应元素相乘x: 一个类型为:half, float32, float64, uint8, int8, uint16, int16, int32, int64, complex64, complex128的张量。y: 一个类型跟张量x相同的张量。返回值: x * y element-wise.import tensorflow as tf...

2019-03-28 18:43:32 287

原创 为什么使用multiarmed bandit algorithms(多臂赌博机算法)--与A/Btest的对比

当前,问题优化常用的测试方法是使用A/Btest, 即使用随机的相同规模的流量分别进行A组结果或B组结果测试。 那么我们来看下A/Btest 的组成:一个短时间的纯探索阶段,你需要找相同数量的用户进入A,B组。 一个长时间的利用阶段,即所有用户进入结果更好的实验组,然后不再回退。 为什么说这是一个有缺点的策略:这是一个探索与利用完全分离的策略,要么纯探索要...

2019-03-18 11:07:16 918

原创 什么是EE(exploration and exploitation)问题

Exploration and Exploitation 问题(EE问题)意译为:探索与利用问题,以商业口吻为例,探索新的利润模式和保持当前利润率的冲突问题。 而以上这样的一种情形也被成为Explore-Exploit Dilemma (EE困境):有两个完全不同的目标,一个是你想要保持你现在情况即利润(利用),另一个是你要尝试新的想法但是可能会造成利润损失(探索)。 ...

2019-03-18 10:51:24 3405

原创 docker 创建镜像,创建容器命令

启动dockerfile建立镜像命令 docker bulid -t imagename . (使用该命令,dockerfile的名字必须为Dockerfile) /docker bulid -tag imagename . /docker bulid -tag imagename -f dockerfilename . (do...

2019-03-06 17:27:22 7597 3

转载 TensorFlow 模型持久化

模型保存和还原都是通过TensorFlow的一个API实现的,这个API就是tf.train.saver类 保存模型 eg:import tensorflow as tf#声明两个变量并计算他们的和v1 = tf.Variable(tf.constant(1.0,shape=[1],name="v1"))v2 = tf.Variable(tf.constant(2.0,shape=...

2019-03-05 15:35:49 221

原创 TensorFlow中变量初始化函数

tf.constant_initializer : 将变量初始化为常量。eg: &gt;&gt;&gt; import numpy as np &gt;&gt;&gt; import tensorflow as tf &gt;&gt;&gt; value = [0, 1, 2, 3, 4, 5, 6, 7] &gt;&gt;&gt; init = tf.constant_i...

2019-03-05 11:44:13 390

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除