---自然语言处理
小小她爹
If you are stuck,you have to work your own way out(如果你陷入困境,就要自己找解决办法)。
展开
-
机器学习模型部署
机器学习主要是用python来训练的模型,当前主要有以下情况:一、单机部署方式1、普通的模型a)模型本身提供的部署方式b)第三方方式:PMML方式,将模型输出为 PMML格式,由第三方加载PMML模型提供输出,其中java的库很成熟,但PMML在深度学习方面上支持不足2、深度模型a)深度的模型,当前流行的为tensorflow,tensorflow提供serving的部署方式,具体来说就是:一个通用的model服务器框架,一个远程通用的model调用的rpc框架,python2中有对原创 2020-09-12 16:09:50 · 1228 阅读 · 0 评论 -
Embedding从入门到专家必读的十篇论文
转自:https://zhuanlan.zhihu.com/p/58805184这里是「王喆的机器学习笔记」的第十篇文章,今天我们不分析论文,而是总结一下Embedding方法的学习路径,这也是我三四年前从接触word2vec,到在推荐系统中应用Embedding,再到现在逐渐从传统的sequence embedding过渡到graph embedding的过程,因此该论文列表在应用方面会对...转载 2019-07-08 13:51:08 · 874 阅读 · 0 评论 -
用户画像
1、用户画像 用户画像主要是为了刻画一个用户的特征,主要分为定量画像和定性画像,定量的主要是数量,定性的主要是一种特征,i并不能用数量表示,一般是使用标签来表示,比如:一个人的生活环境。标签是某一种用户特征的符号表示,每个标签都规定了我们观察、认识和描述用户的一个角度。用户画像是一个整体,各个维度丌孤立,标签之间间有联系。 用户画像是对现实世界中用户的数学建模,评...原创 2018-12-03 22:25:44 · 2015 阅读 · 1 评论 -
对话系统中的槽和槽位
主体转:https://blog.csdn.net/u010159842/article/details/80759428基本概念:1、槽可以理解为实体已明确定义的属性,例如打车中的,出发地点槽,目的地槽,出发时间槽中的属性分别是“出发地点”、“目的地”和“出发时间”2、语义槽是指NLU模块从句子中抽取出的特定概念3、填槽指的是为了让用户意图转化为用户明确的指令而补全信息的过...原创 2018-10-11 18:29:22 · 11298 阅读 · 3 评论 -
意图识别的三篇博文
搜索引擎的查询意图识别(query理解)by 张帆(自然语言处理组@搜狗) https://blog.csdn.net/zhoubl668/article/details/7857756如何使用padlepadle 进行意图识别-开篇 https://www.cnblogs.com/ModifyRong/p/8231899.html使用LSTM和Softmx来进行意图识...原创 2018-09-07 11:53:59 · 2822 阅读 · 1 评论 -
搜索引擎中如何将动态数据(比如点击数)加入到最终排序中
方法方法1: 进行评分扩展,增加个默认字段,如果有直接从redis读取,redis保存key是文档id,对应的为相关数量方法2: 一个document分主document和点击子doucument,点击子doucument每天晚上更新一次,通过主document和点击子doucument关联查询,针对结果评分。这样因为点击子doucument比较小,build起索引来也非常快 es处...原创 2018-09-06 15:04:24 · 584 阅读 · 1 评论 -
nlp中What is Oracle experiment?
转:https://stackoverflow.com/questions/10542937/what-is-oracle-experimentQuestion:I have read a paper about machine learning and it contains an Oracle experiment to compare between his study and an...翻译 2018-08-24 16:55:59 · 1225 阅读 · 0 评论 -
国内NLP的那些人那些会
转:https://blog.csdn.net/wusecaiyun/article/details/49689211统计学和语言学专家都列在一起了,没有区分。1,黄昌宁,1937年生于广东,1955年考入清华大学电机系,1961年毕业并留校任教至博士生导师, 1983-1984年赴美国耶鲁大学进修,1986-1987年曾在香港理工大学任教,1999年4月加入微软中国研究院任主任研究员。中国...转载 2018-08-24 10:59:11 · 1274 阅读 · 0 评论 -
中文分词、词类标注、命名实体识别对序列标注算法的应用差异
原文: http://www.shizhuolin.com/2018/05/30/2929.html 1 中文分词目前网络可找到资料的多为3,4,6类型标注, 在无全局归一时(HMM,MEMM均为局部归一, CRF是全局归一),同样的任务,标注类型适当增多可明显得到更优的效果,或许这是因为类型隐含更久远上下文依赖,但这样会增加对标记语料的数量需求。一般使用类型数量为4的BMES标注方法...转载 2018-07-26 19:24:04 · 3049 阅读 · 4 评论 -
centos下python多环境搭建
机器学习的各种开源的模型在python版本3和2的特别多,不好管理,在linux上要建立多个环境,当前我采用Virtualenv来进行管理,以下是记录流水 1、默认python安装pipa)yum install python-pipb)python -m pip install --upgrade pip -i https://pypi.tuna.tsinghua.edu.cn/...原创 2018-07-23 18:20:01 · 366 阅读 · 0 评论 -
如何在pycharm中调试scrapy
引用:https://stackoverflow.com/questions/21788939/how-to-use-pycharm-to-debug-scrapy-projects The scrapy command is a python script which means you can start it from inside PyCharm.When you examine the...原创 2018-05-15 11:43:29 · 645 阅读 · 0 评论 -
文本标注工具BRAT安装使用
BRAT是文本标注工具安装和使用原创 2018-04-16 16:54:09 · 12495 阅读 · 12 评论 -
Java 中文字符判断
java判断是否是中文字符,并且去除掉相关标点符号。原创 2017-07-13 17:28:31 · 2108 阅读 · 0 评论 -
统计学习方法读书笔记-概论
李航统计学习概论学习笔记原创 2017-08-02 15:19:27 · 462 阅读 · 0 评论 -
doker上运行tensorflow
运行jupyter;设置TensorBoard;启动脚本原创 2017-01-18 14:52:41 · 1492 阅读 · 2 评论 -
自然语言处理关注博客和文章
整理的部分网络资源文章,后续会持续补充。1、综述博客我爱自然语言处理http://www.52nlp.cn/码农场http://www.hankcs.com/2、书籍和入门自然语言相关资源入门http://www.52nlp.cn/about自然语言处理书籍推荐http://www.52nlp.cn/%E4%B9%A6%E7%B1%8D水木论坛自然语言处理版http://www.newsmth.n...原创 2016-09-02 22:27:03 · 982 阅读 · 0 评论 -
长文本如何兼顾效率情况下过滤垃圾信息
方法1:基于字符串精确匹配,一般使用Aho Corasick自动机结合DoubleArrayTrie来获得相关词,然后基于词的基础上,理解词与词的关系,理解语义(可以使基于规则的或者是统计的),从而进行判断 优点:精确匹配,容易处理变形 缺点:匹配词多,语义完全依赖于语义规则 方法2:分词后,做文本的IF-IDF,基于权重比较高的词进行语义判断 优点:最终判断的词少,语义判断性能好,但是语原创 2017-01-17 14:57:26 · 678 阅读 · 0 评论 -
爬虫框架相关的一点感想
爬虫相关的框架和涉及到的主要技术原创 2016-10-19 12:06:12 · 754 阅读 · 0 评论