秋来落叶声
人间再无张居正
学习ing
展开
-
Python高效爬虫方案总结
转载Python高效爬虫方案总结codefrom multiprocessing.dummy import Pool as ThreadPoolfrom multiprocessing import Processimport multiprocessingimport requestsimport timeimport asyncioimport aiohttpimport threadingOPTION = {"COROUTINE": 0, "SINGLE_THREAD": 0,转载 2020-10-15 11:27:59 · 146 阅读 · 0 评论 -
关于select、poll、epoll的一些体会
题外话 在驱动select运行的过程中发现了一个有意思的代码,所以先仿造着写了一个demo,主要是下面的那个循环,从对象A中拿到一个属性,当然这个属性得到的输出是一个函数B,然后把对象A传给B,得到结果。总觉得这种操作很NB(sao)from collections import namedtupleSelectorKey = namedtuple('SelectorKey', ['fd', 'data'])sk1 = SelectorKey('123', lambda x: print(x.原创 2020-10-12 23:49:13 · 159 阅读 · 0 评论 -
python写CSV文件与office兼容
import csv, codecswith open('x.csv', 'w', encoding='utf8') as f: csv_writer = csv.writer(f) f.write(codecs.BOM_UTF8.decode('utf8')) csv_writer.writerow(['解决','jfjf', '解决mmmm'])原创 2020-09-28 17:08:13 · 109 阅读 · 0 评论 -
asyncio与concurrent.futures中Future对象的联合使用
记录from asyncio import get_event_loop, wrap_future, wait_forf = Future()async def foo(): # 注意这里的用法 a = await wait_for(wrap_future(f), timeout=None) # a = await f # TypeError: object Future can't be used in 'await' expression print(a)asy原创 2020-09-18 23:26:32 · 181 阅读 · 0 评论 -
python实现快排
思路如果数组内元素不为空对于第一个元素,将小于它的放左边,将大于它的放在右边将左边的元素进行第一步的过程将右边的元素进行第一步的过程代码import randomx = [random.randint(0, 199) for i in range(130)]def quick_sort(value, left, right): if left < right: mid = partition(value, left, right) qui原创 2020-08-30 01:01:07 · 156 阅读 · 0 评论 -
NLP文本预处理的一些方法
写在前面随着bert等技术的兴起,在做文本方面比赛时,对于预处理这一块像中文分词,停用词过滤,词形还原,词干化,标点符号处理等变的不再这么重要。当然也可以从另一个角度来看,这些对于文本的预处理方法相当于减少输入的噪声,是可以让神经网络更具有鲁棒性的。所以以下内容可以作为一个知识储备在这里,在工作中是否需要用到它们全凭自己判断。预处理方法停用词过滤:比如去除文本中含有的the、also、at...原创 2019-10-31 00:45:23 · 1278 阅读 · 0 评论 -
基于规则的判别系统两种比较方式
以风控为例,判断银行是否应该给某人贷款规则一:垂直式筛选,首先制定一套规则,从上往下进行筛选,如果某个规则不满足,直接拒绝贷款规则二:水平式筛选,首先制定一套规则,若用户违反了哪一条规则,进行扣分,分数达到某个阈值,直接拒绝贷款当然也可以融合上面的两种规则...原创 2019-10-28 21:58:24 · 477 阅读 · 0 评论 -
Python多线程之join方法与守护线程
大神请绕道join在多线程中的作用当先看一段代码,并判断一下这个cost的值为多少import threading, timedef a(): print('in a') time.sleep(2) print('out a')def b(): print('in b') time.sleep(3) print('out b')if __...原创 2019-10-25 00:15:52 · 527 阅读 · 0 评论 -
语言模型的评估与困惑度
声明本文无个人理解,只是对比国内和国外资料后对国内博客中困惑度的一个补充。如果你无法访问参考文献2,这里提供一个下载链接。链接:https://pan.baidu.com/s/1lllc-cMBGLdbKaGgnBdX3A&shfl=sharepset 语言模型VS语言模型训练好一个语言模型后,怎样评估语言模型的好坏呢?可以使用困惑度(perplexity)!困惑度越小,则语言模型...原创 2019-10-21 00:15:40 · 424 阅读 · 0 评论 -
基于检索的问答系统的一个trick
问题基于检索的问答系统,最大的问题就是知识库过大,如果使用输入和知识库里面的每篇文章计算相似度,然后匹配出和知识库相似度最大的文章,则时间复杂度过大,为O(N)O(N)O(N)级别。所以需要有一种方法,它能够降低问题需要匹配的知识库大小,则可以降低时间复杂度。倒排索引符号化表示构建倒排索引前先进行一些符号化表示,假设知识库的形式大概是这样的:doc1:[w11,w12,w13……]do...原创 2019-10-17 20:36:34 · 188 阅读 · 0 评论 -
浅谈单词纠错
方法编辑距离的方式,但是缺点是计算复杂度高,为词典大小与编辑距离复杂度的乘积编辑距离的逆运算,即每次当用户输入词时,生成编辑距离为1或2的词,然后从这些词中选择合适的词返回即可...原创 2019-10-13 17:06:44 · 362 阅读 · 0 评论 -
对于Attention机制中Q,K,V的一些理解
Q、K、V是什么[PS:本文谈论的Q、K、V只限于seq2seq结构]Q:指的是query,相当于decoder的内容K:指的是key,相当于encoder的内容V:指的是value,相当于encoder的内容看到这里,是不是只想直呼卧槽,这什么鬼。不急,先看一个例子例子由于讨论的是seq2seq任务,于是来看看机器翻译。假如我们要将我喜欢看电影翻译成I like watchi...原创 2019-09-20 16:24:48 · 14932 阅读 · 3 评论