- 博客(10)
- 收藏
- 关注
原创 python求列表众数的几种方式和耗时对比
列表里出现次数最多的元素叫众数,使用python求众数目前没有直接的api,可以通过间接的方式求得众数,目前主要有以下几种方式。暴力求解# 暴力求解import timelogin_list = [5, 8, 8, 5, 10, 9, 14, 16, 17, 7, 9, 8, 9, 12, 16, 20, 9, 10, 6, 9, 18, 17, 8, 6, 9, 16, 18, 18]new_label = []time_start = time.time()n = 50000for
2020-06-16 17:16:14 7031 4
原创 ALBERT真的瘦身成功了吗?
前言最近在项目中使用BERT更新了服务久矣的TextCNN,但更新之路较为崎岖。线下验证BERT-Base版本较TextCNN提高较为明显,但是推到线上,Inference时间爆炸了;无奈,只好减少Transformer层数,由12层减少到4层,由于此项目场景下的Input较短,所以使用4层Transformer并没有太多效果层的损失,性能上Inference时间减少了2.3倍,后面又将服务由...
2020-01-15 21:30:20 886 2
原创 tensorflow使用tf.estimator限制gpu显存
tf.estimator是tensorflow的高阶api,使用下面代码可以实现限制显存,0.8代表使用80%的显存。session_config = tf.ConfigProto(log_device_placement=True,allow_soft_placement=True)session_config.gpu_options.per_process_gpu_memory_fra...
2019-08-21 11:50:47 1881 2
原创 bert中文微调tensorflow降版本过程
简述bert是谷歌提出的自然语言处理领域的大杀器,个人感觉相当于重新定义了自然语言处理领域各个任务的效果上限,就拿文本分类来说,目前竭尽全力调试模型和清洗数据等等trick操作,上了bert之后,一般都会比之前的效果要好上几个点,所以对于时效性要求不高的方向,比如离线需求,别浪费力气了,all in bert吧;对于时效性要求高的方向,比如在线服务接口,可以对bert进行剪枝,在精度损失较小的...
2019-08-20 10:19:11 7031 6
原创 rasa框架意图分类embedding算法
算法模型intent_classifier_tensorflow_embedding点击此处获取算法代码算法框架算法框架算法思想把训练样本和意图编码到同一个向量空间,设计损失函数,使得样本与真实意图更相近,样本与其他意图更相反,意图之间编码更相反,达到意图分类的目的。举个例子说明,假设有两条训练样本“我要充话费”和“我要订机票”,有四个意图“订机票”、“查天气”,“充话...
2019-05-20 11:05:00 2086
原创 windows往linux使用rz上传文件失败原因
踩坑windows往linux服务器上上传文件是一般算法工程师需要的操作,使用软件WinSCP可以通过拉取的方式可视化操作,但是这个软件很蛋疼的地方是隔几分钟就要验证密码,而且密码至少验证两边才能正常登陆,即使你第一遍输入的密码是正确的。优点是这种方式可以一次性上传文件夹,一次上传多个文件。另一个方式是采用rz命令的方式,这种方式缺点是只能上传小文件,但是对于算法工程师来讲,一般就是修改代码...
2019-04-22 20:12:00 5302 1
原创 Linux部署redis,python调用
踩坑第一次接触redis,天真的我以为pip install redis就可以搞定环境了,结果使用以下实例的时候,import redisConn = redis.StrictRedis(host='localhost',port='6379',db='0')Conn.set('hello','Hello junkavaliro.zjx')print (Conn.get('hell...
2019-04-16 17:57:00 313
原创 Django 运行 端口被占用 Error: That port is already in use
错误:python在启动django服务时python manage.py runserver,有时会遇到出现Error: That port is already in use的错误。原因:运行python manage.py runserver时,默认的端口是8000,报错就说明端口8000已经有任务在运行了,所以django无法启动。解决办法一:把占用端口8000的任务干...
2019-04-12 15:40:00 1321
原创 tf.layers.conv1d函数解析(一维卷积)
1 功能一维卷积一般用于处理文本数据,常用语自然语言处理中,输入一般是文本经过embedding的二维数据。2 定义tf.layers.conv1d(inputs,filters,kernel_size,strides=1,padding='valid',data_format='channels_last',dilation_rate=1,activation=No...
2019-04-03 14:32:00 19026 6
原创 TextCNN-基于卷积神经网络的文本分类
1 简述 在没有监督数据的时候,采用无监督算法的方式可以计算两句话的相似度,即通过一些因子,比如语序、词性、共现词比例等等进行打分,最后通过加权计算的方式得到最终的相似分值,最终结果主要依赖因子即特征的提取和加权公式的设计,相关项目可以参考Kaggle Quora比赛华人第一名的解决方案,里面有一些优秀的可借鉴特征。 但是最终想要更好的效果必然要使用到有监督的算法,而现有较好的技...
2019-04-02 17:38:00 4147 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人