- 博客(103)
- 资源 (34)
- 收藏
- 关注
原创 selenium ChromeDriver不匹配的问题
使用selenium做网页模拟的时候 由于chrome浏览器自动更新 导致驱动不匹配的问题通常报错情况:selenium.common.exceptions.SessionNotCreatedException: Message: session not created: This version of ChromeDriver only supports Chrome version 87Current browser version is 89.0.4389.90 with binary pa
2021-03-22 10:14:11 6197
原创 aiohttp 服务端与客户端的使用注意事项
当我们使用get的方法传递参数的时候params = {'key1': 'value1', 'key2': 'value2'}async with session.get('http://httpbin.org/get', params=params) as resp: expect = 'http://httpbin.org/get?key1=value1&key2=value2' assert str(resp.url) ==
2021-03-11 11:51:41 801 2
原创 python项目如何快速生成requirements.txt
当一个python项目开发完成后,我们在交付给运维部署的时候,往往需要提供requirements.txt,帮助设置项目中需要的依赖包如何快速生成requirements.txt这里提供一种简单方式:首先进入你项目的地址如你的项目为democd path/demo然后执行如下命令即可pip freeze > requirements.txt这里会遇到一个问题,一般情况下,我们开发环境会安装很多的依赖包,如果直接生成,那么这个requirements.txt会包含很多不是本.
2021-03-05 17:20:40 683 1
原创 如何查看Win10端口占用的情况
背景:有时候当我们启动http服务,设置端口后,由于某些原因该软件关闭了,然而这个http服务依然在运行,此时你重新启动服务会报错如何关闭这个服务 释放占用的端口首先 通过netstat -ano 可以查看全部端口占用的情况如果已经知道被占用的端口 如这里9086被占用可以直接查看netstat -ano|findstr 9086可以看到进程id为122032通过tasklist|findstr 122032 可以看到其服务为python.exe打开任务管理器
2021-01-28 17:57:24 304
原创 tensorflow.python.framework.errors_impl.InvalidArgumentError: Restoring from checkpoint failed. This
背景:今天使用bert finetuning的方式进行文本多分类任务时候,遇到一个报错,记录一下tensorflow.python.framework.errors_impl.InvalidArgumentError: Restoring from checkpoint failed. This is most likely due to a mismatch between the current graph and the graph from the checkpoint. Please en
2020-09-17 14:29:17 1286
原创 强化学习建立股票预测模型
https://aistudio.baidu.com/aistudio/projectdetail/599711?shared=1
2020-07-14 16:11:18 2251
原创 PaddlePaddle 计算机视觉实战记录
本次抗疫相关的paddlepaddle的cv特训还是有了很大的收获,特此记录一下。首先第一课是cv介绍以及绘图相关学习,工作中一直用matplot画图,统计图画的比较少,前端时间看到疫情相关微博上有一些很好的玫瑰图还很好奇是怎么画的,pychart库的学习很有帮助,至少学会了玫瑰图的画法,打开了一扇大门的感觉,以后就不用matplot了,全面拥抱pychart了,另一方面关于cv的介绍帮助很好...
2020-04-08 21:04:22 281
原创 飞桨深度学习集训营学习心得
从去年年底参加百度飞桨集训营以来,目前学习进度已经完成了一小部分,感觉有很大的成长,弥补了自己很多不足,特写篇心得记录一下。先介绍一下背景,我原来做的是机器学习相关,数据降维中流形学习的相关研究,毕业后现在从事的是自然语言处理的工作。当时面试的时候也面试了比较多的计算机视觉的岗位,当时虽然在书本上以及视频网课学习了一些基本概念,但是一方面没有深入了解算法,代码框架等原理,另一方面也没有具体实践...
2020-02-21 19:44:32 443
原创 中文文本标注工具调研以及BRAT安装使用
背景:最近的工作需要对文本先进行标注,然后才可以做接下来的文本分类工作。原来文本数量少的时候可以手工标注,随着文本数量的增多,需要借助标注工具,调研了目前常用的几种:更多详细信息请联系https://www.jianshu.com/u/50ba27f06c3d1,BRAThttps://github.com/nlplab/brat首先是BRAT,http://brat.nlpl...
2019-04-16 16:54:51 21600 46
原创 最大熵模型
熵熵H(X)又称自信息,是描述一个随机变量不确定性大小的量,熵越大则不确定性越大,则需要用更多的信息量来消除这种不确定性。前面《浅谈机器学习基础》中讲决策树的时候就提到了香农熵。在只掌握关于未知分布的部分知识的情况下,符合已知知识的概率分布可能有多个,但使熵值最大的概率分布真实的反映了事件的分布情况。以此为依据构建的模型叫做最大熵模型,后面会详细讲,这里只做简单介绍。然后是联合熵H(X...
2019-04-02 10:11:16 279
原创 tensorflow 报错:Key Variable_4 not found in checkpoint
遇到一个问题,在实际中需要连续导入两个不同的模型,会发现有一个报错,解决方法如下 index = getModel1(q1,q2) ... func() ... index2 = getModel2(q3,q4)NotFoundError (see above for traceback): Restoring from checkpoint f...
2019-03-21 10:55:55 2423 1
转载 Tensorflow一些常用基本概念与函数
1、tensorflow的基本运作为了快速的熟悉TensorFlow编程,下面从一段简单的代码开始:import tensorflow as tf #定义‘符号’变量,也称为占位符 a = tf.placeholder("float") b = tf.placeholder("float") y = tf.mul(a, b) #构造一个op节点 sess = tf.Sess...
2019-03-15 18:08:51 209
原创 bert-serving-start: command not found...解决过程
最近在做一个问答系统,大概思路是先将问题encode为一个向量,然后在问题库中进行比较,选取最接近的问题,将其答案返回给客户端模型中主要的部分在于基于BERT模型,需要将问题先embedding,用到了xiaohan博士的bert as service项目,这个项目目前可以直接pip install bert-serving-service 安装,在win10上可以正常使用,在结合aiohtt...
2019-03-04 17:42:17 7884 9
转载 aiohttp异步框架之服务端用法
配置环境首先检查你的python版本:$ python3 -VPython 3.6.3安装aiohttp:$ pip3installaiohttp查看aiohttp版本号:$ python3 -c 'import aiohttp; print(aiohttp.__version__)'3.0.7项目结构与其他基于python的web项目非常相似:....
2019-02-28 10:36:18 1719
原创 Linux命令之curl
curl 是一种命令行工具,作用是发出网络请求,然后获取数据,显示在"标准输出"(stdout)上面。它支持多种协议,下面列举其常用功能。一、查看网页源码直接在 curl 命令后加上网址,就可以看到网页源码。以网址www.sina.com为例(选择该网址,主要因为它的网页代码较短)。$ curl www.sina.com<html><head><t...
2019-02-28 10:25:11 3780
原创 python中dict操作集合
字典是Python是字典中唯一的键-值类型,是Python中非常重要的数据结构,因其用哈希的方式存储数据,其复杂度为O(1),速度非常快。下面列出字典的常用的用途.一、字典中常见方法列表复制代码代码如下:#方法 #描述 --------------------------------------------------...
2019-01-23 16:58:16 1767
原创 python读写excel表格(xlrd/xlwt)
最近需要做文本分类,原始数据存放在excel表格中,首先需要将数据预处理,读取出来,然后对特征列中对缺失值置0,有值的为1作为label训练分类器,作为主要记录使用过程的常见问题及解决。 python操作excel主要用到xlrd和xlwt这两个库,即xlrd是读excel,xlwt是写excel的库。可从这里下载https://pypi.python.org/pypi。下面分别记录pyth...
2018-12-29 10:44:21 432
原创 详解 Word2vec 之 Skip-Gram 模型
2013年,Google开源了一款用于词向量计算的工具——word2vec,引起了工业界和学术界的关注。首先,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;其次,该工具得到的训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。随着深度学习(Deep Learning)在自然语言处理中应用的普及,很多人误以为word2vec是一种深度学习算法...
2018-12-27 15:20:55 2124
原创 利用TensorFlow进行电影评论的正负判断(文本分类)及分析
这次是利用TensorFlow进行文本分类,判断电影评价是正面还是负面的.IMDB数据集包含5万个评论,其中2.5万作为训练集,2.5万作为测试集.训练集和数据集相当意味着正负样本数一样.一.下载IMDB数据集IMDB数据集经过处理,将单词序列转成数字序列,每一个数字在字典中代表中一个特定的单词.下载的代码如下,下载在文件夹/root/.keras/datasets下面,文件名是imdb.n...
2018-12-25 16:37:27 3567 4
原创 结巴分词原理及使用
目前常用的分词工具很多,包括盘古分词、Yaha分词、Jieba分词、清华THULAC等,现在项目使用的分词方法是结巴分词,本次来介绍一下。安装就不说了可以直接pip install jieba或者pycharm的setting中添加即可。通过 import jieba 来引用如下为jieba代码结构及子目录与相应功能的对应;.├── analyse # 短语抽取模块│ ├──...
2018-12-25 10:49:04 26191 3
原创 Tensorflow入门踩坑实录1
背景:18年底互联网寒冬,12月本小白换工作了,不再做游戏相关了,新入职了然后开始做NLP相关的,接下来会不断更新工作中遇到的一些问题第一天需要先熟悉一下tensorflow,以前学校自己只是用caffe框架做过简单的图像分类相关所以对于tf也是开始入门。第一天对一个新的空白电脑,先安装我们需要的环境,1,git(github是宝库这个记得)2,XShell(windows对c...
2018-12-21 10:33:03 986
原创 最近公共祖先LCA求解
1. 树上倍增对于求 LCA, 最朴素的方法是"让两个点一起往上爬, 直到相遇", "如果一开始不在同一深度, 先爬到同一深度". 树上倍增求 LCA 的方法同样基于这个道理, 只不过利用了倍增思想从而加速了"向上爬"的操作. 也就是说, 每次向上爬的高度不是 1, 而是 2 的幂.我们用 f(i,j)f(i,j) 表示从节点 ii 向上爬 2j2j 的高度所到达的节点, 则 f(i,0)...
2018-11-26 14:03:50 219
原创 shortURL短地址压缩算法
我们在QQ微博上发布网址的时候,微博会自动判别网址,并将其转换,例如:http://url.cn/2hytQx现在让你来设计TinyURL的实现,以下问题要怎么设计:(1):域名后面的编码如何实现? (2):对于已经映射过的一个URL,怎么查找已存在的TinyUrl? (3):有10亿个url,一个服务上存不下,需要多台服务器,怎么设计实现(4):让你来设计这样一个服务,最大的问题是什...
2018-11-22 14:47:12 1571
原创 海量数据处理总结
当数据量变大的时候,一些适用较小量数据的算法可能不适用了,需要重新考虑具体处理措施何谓海量数据处理? 所谓海量数据处理,无非就是基于海量数据上的存储、处理、操作。何谓海量,就是数据量太大,所以导致要么是无法在较短时间内迅速解决,要么是数据太大,导致无法一次性装入内存。 那解决办法呢?针对时间,我们可以采用巧妙的算法搭配合适的数据结构,如Bloom filter/Hash/b...
2018-11-22 11:42:52 1021
原创 错位排列问题
该问题的变形如下:例如有{ n}封写好了的信,收件人不同,胡乱放入{ n}个写了地址的信封中,寄出,求没有一个收件人收到他所应接收的信的概率。问题解决首先考虑几种简单的情况:原序列长度为1 序列中只有一个元素,位置也只有一个,这个元素不可能放在别的位置上,因此原序列长度为1时该为题的解是0。原序列长度为2 设原序列为{a,b},则全错位排列只需将两个元素对调位置{b,a...
2018-11-21 14:23:33 3858
原创 在几何图形中均匀随机取点算法总结及Delaunay三角剖分算法介绍
在工作中遇到一个需求,需要在圆形 矩形,三角形内随机,尽量均匀取点作为位置信息,但是random得到的信息有时候不是很满意。这里讨论一下第一种错误思路:根据圆的解析式 (假设圆心在原点)我们可以先随机生成[-R, R]范围内横坐标x,然后生成 范围内的随机数y,(x,y)就是需要的点。我们写程序模拟了该过程,从下图可以看出,我们可以看到当x靠近圆的边缘使,y的范围减小,因此两边边缘...
2018-11-21 12:43:51 10627
原创 图论算法之Gale-Shapley算法
Gale-Shapley算法近来学习了很有趣的Gale-Shapley算法,又名求婚-拒绝算法。#!/usr/bin/env python# _*_ coding:utf-8 _*_# Some basic testing for your code is provided below. DO NOT modify# these tests. Your code MU...
2018-11-20 20:01:56 2926
原创 排序算法总结
一、概述基本的排序算法在经过前人呕心沥血的研究下基本可以分为以下十种,当然除此之外,还有结合多种算法思想基于他们的改进变种。在插入、选择、交换这三大类基于比较的排序算法中,时间复杂度会随着优化程度在O(n^2)~O(nlogn)之间变化,希尔排序、快速排序、堆排序分别代表着杰出的优化策略。基于分治递归思想的归并排序将待排数据像二叉树一样分化至最简单的一个数排序问题,子问题合并时间复...
2018-11-20 12:44:49 415
原创 获取已发布微信小游戏源码
通过缓存在手机上的小程序文件,进行反编译还原原来的代码。具体实现: 1,首先需要知道的是小程序在手机里的文件储存位置位置具体在哪呢 ? 具体目录位置:/data/data/com.tencent.mm/MicroMsg/{{一串32位的16进制字符串名文件夹}}/appbrand/pkg/ 在这个目录下会有一些 xxx.wxapkg 这样后缀的文件,这些就是小程序或者小游戏的包。...
2018-11-09 15:53:13 6032
原创 JavaScript入门05实用技巧
第一次给变量赋值的时候记得使用var给一个未定义的变量赋值会导致创建一个全局变量,要避免使用全局变量。使用“===”代替“==”== 和 != 操作符会自动执行类型转换。=== 和 !== 操作不会执行任何类型转换,而且在速度上也快于== [10] === 10 // is false[10] == 10 // is true'10' == 10 ...
2018-10-25 19:42:20 118
原创 JavaScript入门04面向对象
面向对象编程阅读: 104334JavaScript的所有数据都可以看成对象,那是不是我们已经在使用面向对象编程了呢?当然不是。如果我们只使用Number、Array、string以及基本的{...}定义的对象,还无法发挥出面向对象编程的威力。JavaScript的面向对象编程和大多数其他语言如Java、C#的面向对象编程都不太一样。如果你熟悉Java或C#,很好,你一定明白面向对...
2018-10-25 19:34:47 114
原创 JavaScript入门03函数
函数定义和调用定义函数在JavaScript中,定义函数的方式如下:function abs(x) { if (x >= 0) { return x; } else { return -x; }}上述abs()函数的定义如下:function指出这是一个函数定义; abs是函数的名称; (x)括号内列出函数...
2018-10-25 19:27:32 207
原创 JavaScript入门02安装运行环境
编辑器我们这里采用vs code现在在mac下安装nodejs我们以brew的方式进行安装。本机器已经预先装了Homebrew。Homebrew, Mac系统的包管理器,用于安装NodeJS和一些其他必需的工具软件。node安装#我们安装时要附加参数,因为在新版中,默认的安装参数不会安装npm包管理器。brew install node --with-npm#检查安装是否...
2018-10-25 14:35:18 316
原创 JavaScript入门01
JavaScript是世界上最流行的脚本语言,因为你在电脑、手机、平板上浏览的所有的网页,以及无数基于HTML5的手机App,交互逻辑都是由JavaScript驱动的。简单地说,JavaScript是一种运行在浏览器中的解释型的编程语言。那么问题来了,为什么我们要学JavaScript?尤其是当你已经掌握了某些其他编程语言如Java、C++的情况下。简单粗暴的回答就是:因为你没有选择。...
2018-10-25 10:51:28 186
原创 图论4之图的最小生成树及拓扑排序
生成树 同一个连通图可以有不同的生成树。例如对于图9-1(a),其余3个子图都是它的生成树。在每棵生成树中都包含8个顶点和7条边,即n个顶点和n-1条边,此时n等于原图中的顶点数8,它们的差别只是边的选取方法不同。 在这3棵生成树中,图9-1(b)中的边集是从图9-1(a)中的顶点V0出发,利用深度优先搜索遍历的方法而得到的边集,此图是原图的深度优先生成树;图9-1(c)中...
2018-10-22 20:51:45 616
原创 图论3之图的最短路径算法
上一篇我们讨论了图的遍历,实际问题中图的深度遍历是我们更常用的,除了图的遍历,我们一般遇到的问题更多是关于图的路径的问题。本篇将介绍图的四种常用遍历算法一、深度或广度优先搜索算法(解决单源最短路径)从起始结点开始访问所有的深度遍历路径或广度优先路径,则到达终点结点的路径有多条,取其中路径权值最短的一条则为最短路径。/***先输入n个结点,m条边,之后输入有向图的m条边,边的前两元...
2018-10-22 19:40:28 1029
原创 图论2之图的遍历
上一篇我们介绍了图的基础,接下来介绍图的遍历图的遍历是指从图中的任一顶点出发,对图中的所有顶点访问一次且只访问一次。图的遍历操作和树的遍历操作功能相似。图的遍历是图的一种基本操作,图的其它算法如求解图的连通性问题,拓扑排序,求关键路径等都是建立在遍历算法的基础之上。由于图结构本身的复杂性,所以图的遍历操作也较复杂,主要表现在以下四个方面:① 在图结构中,没有一个“自然”的首结点,图中任意...
2018-10-18 18:35:00 414
原创 图论1之图的基础知识
图(graph)是数据结构和算法学中最强大的框架之一(或许没有之一)。图几乎可以用来表现所有类型的结构或系统,从交通网络到通信网络,从下棋游戏到最优流程,从任务分配到人际交互网络,图都有广阔的用武之地。而要进入图论的世界,清晰、准确的基本概念是必须的前提和基础。下面对其最核心和最重要的概念作出说明。一、图的基本组成图(graph)并不是指图形图像(image)或地图(map)。通常来说...
2018-10-18 13:56:26 1451
原创 树与二叉树5之B树、B+树及R树
动态查找树主要有:二叉查找树(Binary Search Tree),平衡二叉查找树(Balanced Binary Search Tree),红黑树(Red-Black Tree ),B-tree/B+-tree/ B*-tree (B~Tree)。前三者是典型的二叉查找树结构,其查找的时间复杂度O(log2N)与树的深度相关,那么降低树的深度自然会提高查找效率。 上一篇中我们了解了多叉树...
2018-10-17 19:14:03 909
原创 树与二叉树3之平衡二叉树
上一篇我们介绍了二叉查找树,尽管其实现简单,但也有其明显的局限性一、从二叉查找树到平衡二叉树一个二叉查找树是由n个节点随机构成,所以,对于某些情况,二叉查找树会退化成一个有n个节点的线性链.如下图: b图为一个普通的二叉查找树,a图中,如果我们的根节点选择不恰当如最小或者最大的数,那么二叉查找树就完全退化成了线性结构链表,因此,在二叉查找树的基础上,又出现了AVL树,红黑树,它们...
2018-10-17 15:45:06 568
catanla数问题
2018-10-24
Unity群体模拟BoidFlocking优化实现
2018-07-04
TextMeshPro
2018-03-07
学习论坛BBS的设计与实现
2015-04-28
产品销售分析系统
2015-04-20
基于QT的局域网聊天系统.
2015-04-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人