![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
推荐
文章平均质量分 77
东城地瓜
这个作者很懒,什么都没留下…
展开
-
推荐,NLP算法面试总结
凸优化问题相关:二阶导为0就是凸函数,凸函数没有局部最优,局部最优即是全局最优,典型的就是逻辑回归,凸优化问题可以用简单的梯度下降达到全局最优,例如sgd。但是神经网络肯定不是,所以需要更好的优化器去求解,避免陷入局部最优解,这也是神经网络两次训练基本不会得到相同的结果的原因,因为局部最优解很多,参数初始化的不一样就会导致陷入不同的局部最优解冷启动问题:新用户可以推荐热门物品,或者高转化物品,新物品可以按相似物品去推荐连续值特征的分桶:算皮尔逊相关系数协同过滤:计算杰卡德距离拿到相似度,再取topK.原创 2020-09-09 00:13:07 · 260 阅读 · 0 评论 -
计算机编程入门--python
计算机基础知识存储计算机是二进制进行存储和计算的,二进制就是逢二进一,所以存储的只有0和1,任何文件都是01串,至于怎么用01串表达各种形式的文件,就需要自行去了解各种协议了,就是大家怎么约定。计算机的最小存储单位是比特位,就是一个0或者1,系统会对存储单位做编号,0,1,2,3…,要查询的时候就通过这个编号去找。这个编号就是内存地址,后面简称地址。当我们需要存储的时候系统也会给我们分配一个地址,我们就可以往里面写数据。计算我们平常熟悉的是加减乘除运算,这些运算都可以用与、或、非、异或四种位运算来表原创 2020-08-02 16:26:10 · 540 阅读 · 0 评论 -
bert源码详解
模型构建modeling.pyclass BertConfig(object): def __init__(self, vocab_size, hidden_size=768, num_hidden_layers=12, num_attention_heads=12, intermediate_size=3072, hidd原创 2020-07-07 15:47:38 · 587 阅读 · 0 评论 -
NLP错别字识别(附代码和模型和服务,可在线测试)
训练过程准备一批没有错误的正常样本根据正常样本随机生成错别字,错别字应该遵循同音、近音、词组的原则,同时避开人名地名机构名等专有名词用bert微调训练在线预估项目地址:https://github.com/ganguagua/error_recognize在线预估...原创 2020-06-25 18:03:13 · 4672 阅读 · 4 评论 -
NLP文本处理小工具函数
控制字符去除import unicodedatadef remove_control_character(content): result = "" for ch in content: if ch not in ("\t", "\n", "\r") and unicodedata.category(ch) in ("Cc", "Cf"): continue if ord(ch) in (0, 0xfffd): .原创 2020-06-24 16:10:21 · 197 阅读 · 0 评论 -
python selenium爬虫(模拟鼠标、键盘输入)
环境pip install selenium下载浏览器对应的driver,chromedriver地址:http://chromedriver.storage.googleapis.com/index.html,注意需要和自己的浏览器版本一致,地址栏输入chrome://version/即可查看,下载解压后的driver文件需要放到PATH路径中打开一个页面import selenium.webdriverbrowser = selenium.webdriver.Chrome()browse原创 2020-06-24 11:19:56 · 7258 阅读 · 2 评论 -
python多线程、多进程、多核
多线程python的多线程是不能实现多核的,类似go的协程,只有当线程I/O的时候才让出CPU,或者单个线程计算100次时。所以多线程的CPU最多只能打到100%代码实现如下:def work(num): for i in range(num): print(i)import threadingthreads = []for i in range(10): threads.append(threading.Thread(target=work, args=(1原创 2020-06-22 23:40:19 · 677 阅读 · 0 评论 -
Faster Transformer编译 使用
docker安装设置REPOSITORYsudo yum install -y yum-utils \ device-mapper-persistent-data \ lvm2sudo yum-config-manager \ --add-repo \ https://download.docker.com/linux/centos/docker-ce.repo...原创 2019-08-01 14:38:25 · 1604 阅读 · 0 评论 -
逻辑回归、FM、FFM比较总结
后端开发SQL注意事项in操作在很多时候是可以优化查询的,但是当有order by或者其他需要遍历所有结果的语句时需要注意,如果in的内容比较多,应该分批查,例如select * from table where name in (?) and type in (1,2,3) order by id desc limit 10,如果要查的name很多,数据库会查出所有结果再排序, 解决办法:把...原创 2019-02-19 21:49:18 · 2247 阅读 · 0 评论