大数据与自然语言处理
文章平均质量分 65
大数据和自然语言学习的点点滴滴
小小她爹
If you are stuck,you have to work your own way out(如果你陷入困境,就要自己找解决办法)。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
计算广告中的最优化方法
1、定义最优化方法是给定一个数学上明确表达的密保偶,如何用系统方法和思路找到该问题的最优解。主要讨论:给定某个确定的目标函数以及该函数自变量的一些约束条件,求解该函数的最大活最小值的问题。2、最优化方法2.1 拉格朗日法和凸优化通过引入朗格朗日乘子来进行优化2.2 下降单纯形法当f函数不可到或者工程上求导代价极大,可以通过黄金分割方法不断缩小区间来获得最小值,也称为阿米巴变...原创 2019-02-28 22:58:44 · 1153 阅读 · 1 评论
-
长文本如何兼顾效率情况下过滤垃圾信息
方法1:基于字符串精确匹配,一般使用Aho Corasick自动机结合DoubleArrayTrie来获得相关词,然后基于词的基础上,理解词与词的关系,理解语义(可以使基于规则的或者是统计的),从而进行判断 优点:精确匹配,容易处理变形 缺点:匹配词多,语义完全依赖于语义规则 方法2:分词后,做文本的IF-IDF,基于权重比较高的词进行语义判断 优点:最终判断的词少,语义判断性能好,但是语原创 2017-01-17 14:57:26 · 775 阅读 · 0 评论
-
语义分析的一些方法(三)
转腾讯广电通博文:语义分析的一些方法(三)转载 2017-01-04 23:25:39 · 1344 阅读 · 0 评论
-
语义分析的一些方法(二)
转腾讯广电通博文:语义分析的一些方法转载 2017-01-04 23:15:59 · 2059 阅读 · 0 评论
-
语义分析的一些方法(一)
转腾讯广电通博文:主要语义分析的一些方法转载 2016-12-29 14:40:35 · 9536 阅读 · 2 评论
-
dify新版本1.1.3的一些问题
window版本上1.13构建dify,采用docker方法启动的一些问题原创 2025-04-03 16:36:09 · 1333 阅读 · 0 评论 -
提示器框架CO-STAR介绍以及如何工程化
提示器框架CO-STAR介绍以及如何工程化,方便快速了解提示工程做工程化需要考虑的相关问题原创 2025-03-11 14:06:50 · 2463 阅读 · 0 评论 -
数据库技术资源
1、顶级会议ACM SIGMOD(Special Interest Group On Management Of Data)由美国计算机协会(ACM)数据管理专业委员会(SIGMOD)发起、在数据库领域具有最高学术地位的国际性学术会议。会议的目的是在全球范围内为数据库领域的研究者、开发者以及用户提供一个探索最新学术思想和研究方法、交流开发技巧、工具以及经验的平台,引导和促进数据库学科的发展。数据库的最好会议,也是最好的系统类的会议之一。已经有30年的历史。一般在美国开,加拿大开过两次。最近开...原创 2021-10-19 14:40:14 · 240 阅读 · 0 评论 -
刷题和基本概念资源
主要是B站的资源1到300题目详解Leetcode力扣 1-300题视频讲解合集|手画图解版+代码【持续更新ing】_哔哩哔哩_bilibili301+题目详解Leetcode力扣 301+题视频讲解合集|手画图解版+代码【持续更新ing】_哔哩哔哩_bilibili手把手带你刷Leetcode力扣手把手带你刷Leetcode力扣|各个击破数据结构和算法|大厂面试必备技能【已完结】_哔哩哔哩_bilibili最热100题:LeetCode 最热门 10.原创 2021-09-12 18:52:44 · 273 阅读 · 0 评论 -
推荐系统之Bloom Filter 过滤
1、背景推荐系统中的经常出现的情况是,可能在召回的过程中将已经推给过用户的数据召回过来,如果直接推送给用户的话,会引起用户的反感,如何一好的过滤系统也是推荐系统设计的一部分。网上一搜索的话很多人就会说用Bloom Filter,但是你是真正了解Bloom Filter?直接使用Bloom Filter就能解决问题,其实不然,要充分考虑到Bloom Filter的特性和应用场景才能够用好。2、为什么要Bloom Filter从推荐的角度来说,要推荐出的东西,从程序员的角度来将,最直接的方式是...原创 2021-08-25 16:57:08 · 871 阅读 · 1 评论 -
关于推荐中的过滤
数据量大的情况下使用布隆过滤器,可以采用的方案包括:方案1: 直接将布隆过滤器的value存起来因为布隆过滤器的value比较大,那么可以选择的key-value存储就要支持value比较大,显然redis不是好的选择,因为redis是单线程,容易阻塞,另外,value大的情况下,容易导致集群的负载不均衡,那么可以选择的有hbase和Rocksdb针对hbase来说,支持多版本比较好,高并发读取的性能其实并不是特别好Rocksdb 只是引擎,现在虽然有Rocksdb Secondary I.原创 2021-08-17 23:43:59 · 292 阅读 · 0 评论 -
关于推荐中的召回和实时推荐思考
1、推荐的召回是否要记录对应的pos? <1>数据变化快,这个位置经常失效;如果变化不大,那么使用数据结构可以加速查找,比如: skiplist或者支持o(1)的list <2>部分刷新和全部刷新,局部数据+整体数据,每个用户保留一个局部数据版本号,如果版本号变化,说明缓冲区刷新,否则的话,可以直接使用加速查找2、关于item2vec: <1>通过传统的word2vec方法,依据上下文获得embeding <2>直...原创 2021-08-13 16:20:03 · 353 阅读 · 0 评论 -
keras中plot_model报Failed to import pydot. You must `pip install pydot` and install graphviz问题解决
参考的解决方法是:https://blog.csdn.net/sinat_40282753/article/details/85046871,实际上参考方案只是提供了思路,按照参考方案并未解决。步骤1:简单处理1.pip3 install pydot2.pip3 install graphviz3.Windows 安装 graphviz-install-2.44.1-win64.exe4.将安装bin路径添加进环境的Path,如知乎专栏所述。5.步骤4功能同在代码中添加:import原创 2020-12-04 10:31:33 · 2430 阅读 · 0 评论 -
Milvus 在启动时返回 “Illegal instruction”?
Milvus版本的使用的0.7.0报错:在启动时返回 “Illegal instruction”?1、Milvus版本硬件的支持Milvus为海量向量搜索场景而设计。Milvus不但集成了业界成熟的向量搜索技术如Faiss和SPTAG,Milvus也实现了高效的NSG图索引。同时,Milvus团队针对Faiss IVF索引进行了深度优化,实现了CPU与多GPU的融合计算,大幅提高了向量搜索性能。Milvus可以在单机环境下完成SIFT1b十亿级向量搜索任务。划重点: 在官方站点r...原创 2020-09-19 15:57:57 · 642 阅读 · 0 评论 -
应该从哪里检索论文
https://academic.microsoft.com/home从四个方面: 研究机构、人、会议、期刊杂志来进行分类https://dblp.uni-trier.de/作者:browse authors期刊杂志:browse journals会议:browse conferences | workshops系列文章:browse series,一般为arxiv上的系列文章专著和论文:browse monographshttps://arxiv.org/arxiv上的预发的..原创 2020-06-10 18:57:14 · 371 阅读 · 0 评论 -
K-means聚类自定义距离计算的开源算法选择
如果你想自己定义一个距离的function的话,scikit-learn是不行的,只支持Euclideandistance如果你觉得spark可以的话,实际上sprk的k-means也是不行的,好一点的是支持Euclidean distance,还支持cosine distance如果你想自己定义function处理的话,二个方法:1、自己实现算法,可参考的文档:一个简单的...原创 2019-11-06 18:07:34 · 3157 阅读 · 2 评论 -
关于ad hoc retrieval的解释
转自于:https://blog.csdn.net/memray/article/details/41149633Q:关于ad hoc retrieval的解释Answer:TREC刚开始的时候只有两个任务,ad hoc和routing。前者类似于图书馆里的书籍检索,即书籍库(数据库)相对稳定不变,不同用户的查询要求是千变万化的。这种检索就称为ad hoc。基于Web的搜索引擎也属于...原创 2019-10-08 15:04:49 · 643 阅读 · 0 评论 -
搜索引擎中如何将动态数据(比如点击数)加入到最终排序中
方法方法1: 进行评分扩展,增加个默认字段,如果有直接从redis读取,redis保存key是文档id,对应的为相关数量方法2: 一个document分主document和点击子doucument,点击子doucument每天晚上更新一次,通过主document和点击子doucument关联查询,针对结果评分。这样因为点击子doucument比较小,build起索引来也非常快 es处...原创 2018-09-06 15:04:24 · 694 阅读 · 1 评论 -
时间序列数据挖掘研究主要内容
主要包括:1、时间序列相似性搜索2、时间序列聚类3、时间序列分类4、时间序列分割与模式发现5、海量时间序列可视化6、时间序列预测 主要应用场景:1、股票交易2、销售或订单预测3、气象预测4、各种比赛人数的预测等等 ...原创 2018-08-27 14:35:51 · 1371 阅读 · 0 评论 -
中文分词、词类标注、命名实体识别对序列标注算法的应用差异
原文: http://www.shizhuolin.com/2018/05/30/2929.html 1 中文分词目前网络可找到资料的多为3,4,6类型标注, 在无全局归一时(HMM,MEMM均为局部归一, CRF是全局归一),同样的任务,标注类型适当增多可明显得到更优的效果,或许这是因为类型隐含更久远上下文依赖,但这样会增加对标记语料的数量需求。一般使用类型数量为4的BMES标注方法...转载 2018-07-26 19:24:04 · 3228 阅读 · 4 评论 -
java程序员学习python记录
1、基于过程的区别1、dict类型: 可以直接用 item[“name”]来进行访问2、语法主要靠:号来控制3、boolean变量赋值主要是: True和False,而不是true和false赋值取反: not 变量名4、没有i++的操作符5、字符串操作:比较: str1 is str2连接字符串+不变截取字符串:str[::-1]print ...原创 2018-05-09 16:44:11 · 1559 阅读 · 1 评论 -
文本标注工具BRAT安装使用
BRAT是文本标注工具安装和使用原创 2018-04-16 16:54:09 · 12862 阅读 · 12 评论 -
DAG vs. MPP vs MR
整理总结大数据最新的一些思想,flink storm spark之间的关系原创 2018-03-21 22:58:37 · 2202 阅读 · 1 评论 -
知识图谱资料索引(持续补充)
知识图谱相关资源原创 2018-03-19 23:02:39 · 903 阅读 · 0 评论 -
机器学习特征选择
机器学习中基本的特征选择方法原创 2018-03-06 22:25:45 · 450 阅读 · 0 评论 -
关于数据科学家的价值
关于数据科学家一哥们经典的语录原创 2018-03-04 22:08:27 · 388 阅读 · 0 评论 -
深度学习理解入门
从统计学和传统的神经网络来理解深度学习原创 2017-10-14 11:17:03 · 773 阅读 · 0 评论 -
数据仓库相关开源技术
数据分析平台相关开源技术一览表原创 2017-08-22 22:45:06 · 1114 阅读 · 0 评论 -
向量距离和相似度
向量之间的关系,统计学上的距离和方向的角度来分析关联性的一些常用的指标。原创 2016-09-01 22:25:10 · 5131 阅读 · 0 评论 -
特征处理(Feature Processing)
特征工程(Feature Engineering)经常被说为机器学习中的black art,这里面包含了很多不可言说的方面。怎么处理好特征,最重要的当然还是对要解决问题的了解。但是,它其实也有很多科学的地方。这篇文章我之所以命名为特征处理(Feature Processing),是因为这里面要介绍的东西只是特征工程中的一小部分。转载 2016-09-20 09:17:07 · 699 阅读 · 0 评论 -
scikit-learn相关软件包说明
1、官方网站简单介绍http://scikit-learn.org/stable/index.html 1、分类Classification应用:垃圾邮件过滤、图像检测算法:svm,近邻检测、随机深林等2、回归Regression应用:Drug response, Stock prices(股票价格)算法:SVR 岭回原创 2016-12-13 22:45:13 · 752 阅读 · 0 评论 -
Hbase表设计
典型的数据库一对一,一对多,多对多映射以及二级索引如何组织原创 2017-02-16 09:49:13 · 657 阅读 · 0 评论 -
官方Spark Programming Guide学习心得(V2.1.0)
spark官方guide学习总结,文档写的真简洁。原创 2017-03-10 22:19:37 · 660 阅读 · 0 评论 -
spark基本概念
转一篇文章,有hadoop基础看起来很快能懂.转载 2017-03-10 22:35:10 · 622 阅读 · 0 评论 -
机器学习中的算法(1)-决策树模型组合之随机森林与GBDT
转发的一篇文章,评分方面组合模型的文章转载 2017-03-07 18:04:10 · 621 阅读 · 0 评论 -
GBDT回归的python官方例子详解
GBDT回归的python官方例子详解翻译 2017-03-08 13:48:24 · 17820 阅读 · 2 评论 -
利用GBDT模型构造新特征
利用GBDT模型构造新特征转载 2017-03-14 19:33:54 · 884 阅读 · 1 评论 -
统计学习方法读书笔记-概论
李航统计学习概论学习笔记原创 2017-08-02 15:19:27 · 542 阅读 · 0 评论 -
在自然语言处理中(NLP),如何对特征进行有效的降维?
特征降纬方法,包括:词袋模型、维度选择方法、主题模型和神经网络的一些基本处理思路转载 2017-08-01 14:38:58 · 3912 阅读 · 0 评论 -
Java 中文字符判断
java判断是否是中文字符,并且去除掉相关标点符号。原创 2017-07-13 17:28:31 · 2221 阅读 · 0 评论
分享