- 博客(8)
- 收藏
- 关注
转载 自然语言处理——词向量词嵌入
1 传统方式的缺点 使用索引的方式无法表达词之间的相似性,n元模型在很多场合难以取得明显的进步和表现。one-hot存在维度方面的问题以及无法表示词和短语之间的相似性。 WordNet: WordNet是一个由普林斯顿大学认识科学实验室在心理学教授乔治·A·米勒的指导下建立和维护的英语字典。开发工作从1985年开始,从此以后该项目接受了超过300万美元的资助(主要来源于对...
2019-05-24 00:46:00
642
转载 GPU选型
1—基本概念 显存带宽 是指显示芯片与显存之间的数据传输速率,它以字节/秒为单位。显存带宽是决定显卡性能和速度最重要的因素之一。 2—常见GPU性能参数 GPU型号 单卡显存 cuda 计算能力对比(官方) 单精度性能 (FP32) cuda核数量 显存带宽 GB/秒 最大功耗W 价格 Tesla P4 8G 6.1 5.5 2560 192 75 1.6W T...
2019-05-23 02:19:00
389
转载 自然语言处理—资源链接(持续更新)
1 — 语言处理综合工具包(暂未完善) 工具包名 支持语言 受欢迎程度 简介 个人使用评价 HanLPpyhanlp 中文 1.3W star HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 NLTK 多语言 7.8K star ...
2019-05-08 21:46:00
331
转载 数据预处理算法—优秀参考文章
文本处理 文本去重算法 文本去重算法:Minhash/Simhash/Klongsent simhash海量文本去重的工程化 转载于:https://www.cnblogs.com/xingzhelin/p/10834802.html...
2019-05-08 21:32:00
473
转载 python-字符编码数据类型转换
1 - 编码格式转换 1.1 编码格式介绍 字符集 介绍 ASCII ASCII 码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符 ANSI ANSI是一种字符代码,为使计算机支持更多语言,通常使用 0x00~0x7f 范围的1 个字节来表示 1 个英文字符。超出此范围的使用0x80~0xFFFF来编码,即扩展的ASCII编码。不同的国家和地区...
2019-05-08 14:32:00
145
转载 python实用工具包
文本处理 FlashText 大规模关键字搜索利器,据说多余500个关键字时性能会明显优于正则表达式,暂未评测! 调试利器 pysnooper 不需要使用print进行调试 转载于:https://www.cnblogs.com/xingzhelin/p/10828996.html...
2019-05-07 23:52:00
69
转载 数据挖掘学习笔记——决策树的理解
1、决策树的决策步骤思考 2、决策树预测的思考 3、决策树节点数据结构构思 4、决策树的Python代码实现(未完成) 转载于:https://www.cnblogs.com/xingzhelin/p/9186109.html...
2018-06-15 10:02:00
127
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人