自然语言处理
qq_35098111
这个作者很懒,什么都没留下…
展开
-
服务器安装Anaconda
在服务器上安装Anaconda尽量不要在本地电脑下载再scp传到服务器使用这种方式可能会碰到这种错误直接wget方式来下载最好安装路径,直接回车了在服务器上搭建jupyter (Anaconda自带了jupyter)2、安装jupyter: pip install jupyter3、安装ipython,设置密码4、修改默认配置文件出现的错误。安装第一种方法...原创 2019-04-07 15:24:56 · 1084 阅读 · 0 评论 -
基本文本处理技能
1. 基本文本处理技能1.1 分词的概念分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。当然,我们在进行数据挖掘、精准推荐和自然语言处理工作中也会经常用到中文分词技术。我们讨论的分词算法可分为三大类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于字标注的分词方法。分词的正向最大 (Maximum Matching)...原创 2019-04-11 21:57:15 · 253 阅读 · 0 评论 -
自然语言处理数据集和性能
1. 数据集THUCNews中文数据集:THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测,准...原创 2019-04-09 21:59:38 · 410 阅读 · 0 评论 -
文本表示
TF-IDF原理。TF-IDF即是词频-逆文本频率指数,词频是某词汇在该文件中所占词汇的比例,逆文本频率指数是指拥有该词汇的文本数量与总文本数量的反比的对数。一个词汇的占有该文件的总词汇比例越大说明该词汇在该文件中越重要,越能代表该文件,但若拥有该词汇的文本越多,则越说明该词汇是一个常见词汇,不能显著地体现文本的差异性。因此取TF和IDF的乘积来代表某文件内的某词汇,当输入关键字对文件集进行搜索...原创 2019-04-13 21:57:11 · 173 阅读 · 0 评论