- 博客(6)
- 资源 (4)
- 收藏
- 关注
原创 国内大陆部分主要NLP团队
微软亚洲研究院自然语言计算组https://www.microsoft.com/en-us/research/group/natural-language-computing/清华大学自然语言处理与社会人文计算实验室http://nlp.csai.tsinghua.edu.cn/site2/清华大学智能技术与系统信息检索组http://www.thuir.cn/cms/...
2018-01-23 22:23:22 7500 2
原创 Wikipedia中文文本数据获取
欢迎各位童鞋交流和指教!-----------------------------------------------------------------------------------最近因为要做中文语义关系分类,所以需要获取一些中文文本数据,wikipedia中文无疑是一个很好的选择。因为wiki自己平时隔一段时间就在dump的网页上更新文本数据,这个非常方便我们使用和下...
2018-01-23 21:59:02 7890
原创 Pandas常用数据预处理方法及指令
1.前言前一段时间,在小伙伴的怂恿下参加了京东的Jdata数据大赛(并以剪刀石头布的方式决定的组长,草率!不过非常感谢小伙伴们对我的信任,还有我们一起学习的热情让我一下恢复了对学习的xing趣了呢),作为一名小白,抱着学习的心态去的,所谓的万事开头难是真的,从来没接触过这种比赛或工作的我也是一头雾水,以前没上过数据处理和挖掘的课程,不知从何下手,就是在这样一穷二白的情况
2018-01-23 13:21:11 12237
原创 PCA原理学习及实战应用
欢迎各位童鞋交流和指教!1. 前言在接触到了文本的分布式表示(或称嵌入式、向量)后,发现深入学习和理解主成分分析十分有必要,主成分分析(Principal Component Analysis,PCA)可以帮助我们把数据中,相对不重要、或者说对于数据没有很强的区分能力的维度去掉,将数据映射到一个有着主要能区分数据、数据的相关性不大的维度空间里。这是一个非常经典和美妙的数据分析方法。...
2018-01-23 13:02:39 670
原创 一站式win10+ubuntu16.04+eclipse pydev+pycharm+tensorflow1.4.1+anaconda3 4.2.0环境搭建
一站式win10+ubuntu16.04+eclipsepydev+pycharm+tensorflow1.4.1+anaconda3 4.2.0环境搭建之前安装了tensorflow1.6.0版本感觉不太好用,于是决定回到py3.5+tf1.4.1版本文章比较长,但其实并不复杂,一步一步来就行,都是作者尝试过来的。--------------------------------...
2018-01-20 19:30:15 724
原创 linux使用小技
记录了使用linux中的小技巧欢迎各位童鞋交流和指教!---------------------------------------------------------------------------------------1、设置终端terminal启动的快捷键,system--keyboard short cuts,以gnome-terminal指令添加快捷键,添加完成后再...
2018-01-02 17:21:04 151
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人