自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 文本表示

TF-IDF原理。TF-IDF即是词频-逆文本频率指数,词频是某词汇在该文件中所占词汇的比例,逆文本频率指数是指拥有该词汇的文本数量与总文本数量的反比的对数。一个词汇的占有该文件的总词汇比例越大说明该词汇在该文件中越重要,越能代表该文件,但若拥有该词汇的文本越多,则越说明该词汇是一个常见词汇,不能显著地体现文本的差异性。因此取TF和IDF的乘积来代表某文件内的某词汇,当输入关键字对文件集进行搜索...

2019-04-13 21:57:11 174

原创 基本文本处理技能

1. 基本文本处理技能1.1 分词的概念分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。当然,我们在进行数据挖掘、精准推荐和自然语言处理工作中也会经常用到中文分词技术。我们讨论的分词算法可分为三大类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于字标注的分词方法。分词的正向最大 (Maximum Matching)...

2019-04-11 21:57:15 254

原创 自然语言处理数据集和性能

1. 数据集THUCNews中文数据集:THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测,准...

2019-04-09 21:59:38 412

原创 服务器安装Anaconda

在服务器上安装Anaconda尽量不要在本地电脑下载再scp传到服务器使用这种方式可能会碰到这种错误直接wget方式来下载最好安装路径,直接回车了在服务器上搭建jupyter (Anaconda自带了jupyter)2、安装jupyter: pip install jupyter3、安装ipython,设置密码4、修改默认配置文件出现的错误。安装第一种方法...

2019-04-07 15:24:56 1085

原创 决策树算法梳理

信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)熵: 信息是不是可以量化?为什么有的信息量大有的信息量小?那么,不确定性的变化跟什么有关呢?一,跟事情的可能结果的数量有关;二,跟概率有关。那么,怎么衡量不确定性的变化的大小呢?怎么定义呢?一,起码不是个负数吧,不然说句话还偷走信息呢~二,起码信息量和信息量之间可以相加吧!三,刚刚已经提过,信息量跟概率有关系,但我们应该会觉得,信息...

2019-04-03 21:51:21 168

原创 逻辑回归算法梳理

逻辑回归算法梳理1、逻辑回归与线性回归的联系与区别1)线性回归要求变量服从正态分布,logistic回归对变量分布没有要求。2)线性回归要求因变量是连续性数值变量,而logistic回归要求因变量是分类型变量。3)线性回归要求自变量和因变量呈线性关系,而logistic回归不要求自变量和因变量呈线性关系4)logistic回归是分析因变量取某个值的概率与自变量的关系,而线性回归是直接分析...

2019-04-01 21:40:18 569

原创 机器学习中的一些概念

@TOC机器学习中的一些概念一、机器学习中的一些概念1.1 监督学习(Supervised learing)一句话回答:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出。常用的监督学习模型:K-近邻算法(k-Nearest Neighbors,KNN)、线性回归、线性逻辑回归、SVM、决策树、朴素贝叶斯 如何解决一个给定的监督式学习问题,考虑以下步骤...

2019-03-31 09:30:15 375

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除