自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

艾文

专注NLP/推荐系统/数据挖掘

  • 博客(7)
  • 资源 (16)
  • 收藏
  • 关注

原创 自然语言处理(NLP):05 基于 doc2vec 特征抽取+电影情感文本分类

本章节研究内容: doc2vec 提取句子特征+基于doc2vec 特征工程 文本分类问题基于Doc2Vec情感分析词向量在NLP被广泛应用,通过引入Doc2Vec,不仅可以对单个词进行词向量表示,而且可以对整个句子或文章进行表示。 想象一下,能够使用固定长度的向量表示整个句子,然后我们可以使用标准的分类算法去分类。是一件很神奇的事情。本章以Word2Vec 为基础,使用Do...

2019-07-26 16:09:06 1758

原创 自然语言处理(NLP):04 word2vec 入门介绍

词向量表示One-Hot RepresentationNLP 中最直观,也是到目前为止最常用的词表示方法是 One-hot Representation,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个维度就代表了当前的词。举个栗子,“话筒”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …]“...

2019-07-20 10:34:33 659 1

原创 自然语言处理(NLP): 03 tfidf 特征抽取&n-gram 扩展 + 朴素贝叶斯模型

本章节研究内容: 基于TFIDF特征抽取&ngram + 朴素贝叶斯算法 文本分类

2019-07-17 23:57:39 3128

原创 自然语言处理(NLP):02 基于词袋模型(BOW)特征抽取&n-gram&扩展特征维度数 + 贝叶斯算法 文本分类

本章节研究内容: 基于词袋模型(BOW)特征抽取&n-gram&扩展特征维度数 + 贝叶斯算法 文本分类有任何问题,可以交流:1121025745@qq.com实践验证:相比与0.8751187431494337 不使用ngram和扩展特征情况下准确率:0.8760321519912313,高出0.1% 提升。我们可以把特征做得更棒一点,比如说,我们试试...

2019-07-17 00:42:33 2041 2

原创 自然语言处理(NLP): 01 基于词袋模型(BOW)特征抽取 + 贝叶斯算法 新闻文本分类

本章节研究内容: 基于词袋模型(BOW)特征抽取 + 贝叶斯算法 文本分类CountVectorizer 使用基于词袋模型特征提取,即我们使用词频TF来抽取特征from sklearn.feature_extraction.text import CountVectorizertexts=["dog cat fish","dog cat cat","fish bird", 'bird']cv = CountVectorizer(analyzer='word',max_features=4000)

2019-07-17 00:03:44 3751 4

原创 Python数据分析分享

Python数据分析

2019-07-02 14:33:22 1143 2

原创 Python数据分析 pyecharts 生成图片问题

采用pyecharts 生成图片的时候,在使用前需要做两件事件 1. 安装snapshot_seleniumpip3 install snapshot_selenium2. 设置chromedriver驱动到PATH 中常见错chromedriver或者chromedriver.exe 没有放到PATH 下,导致使用的时候出现错误windows或者mac 下安装chrom...

2019-07-01 18:15:08 6034 2

pytorch-flask-api.zip

本章节中,我们将使用Flask 部署一个Pytorch模型,并未模型预测提供一个REST API 接口。下面,我们部署一个预训练好的模型DenseNet 121,该模型用于检测图片

2019-08-26

word2vec-sentiments-IMDB-Data.zip

词向量在NLP被广泛应用,通过引入Doc2Vec,不仅可以对单个词进行词向量表示,而且可以对整个句子或文章进行表示。 想象一下,能够使用固定长度的向量表示整个句子,然后我们可以使用标准的分类算法去分类。是一件很神奇的事情。 本章以Word2Vec 为基础,使用Doc2Vec 来做些情感分析的任务问题。 IMDB预料 进行分类(积极or消极),可以提供的数据集

2019-07-26

tachyon 介绍

Tachyon是以内存为中心的分布式文件系统,能够为集群计算框架(如:Spark,MapReduce等)提供内存级速度的跨集群文件共享服务。本文档让你快速入门

2016-02-18

solr搜索引擎-课程文件培训

本文档包括以下内容,通过下载该内容可以让你掌握solr学习的入门和适应基本开发。 1.学员操作手册-Solr搜索自动补全 2.solr实训教程.doc 3.积分商城基于Solr的搜索引擎优化.pdf 4.基于Solr的搜索引擎优化讲义.pdf 5.课程大纲-基于搜索引擎培训.doc 6.学员操作手册-Solr数据库插入索引.doc 7.学员操作手册-部署solr服务.doc

2014-02-20

solr企业级搜索引擎准备阶段

Apache Solr 是一个开源的搜索服务器,Solr 使用 Java 语言开发,主要基于 HTTP 和 Apache Lucene 实现. Solr 运行在Java的Servlet容器上,诸如: Tomcat or Jetty。 Solr 是一个免费的开源搜索引擎免费软件。 Solr 是一个基于Lucence的开源项目,可以通过下面网址下载。 http://lucene.apache.org/solr/ http://archive.apache.org/dist/lucene/solr/

2013-11-19

UML工具培训

1. 初步认识rational rose 2. rational rose 在项目中应用 3. 通过uml介绍瀑布模型和RUP模型。

2013-11-19

solr搜索自动补全

类似京东,淘宝搜索自动补全功能。通过suggest.js插件来完成功能开发。

2013-11-19

Solr数据库插入(全量和增量)索引

Solr数据库插入(全量和增量)索引,全量一般用于第一次创建索引情况,批量一般更新数据部分创建索引。

2013-11-19

积分商城基于Solr搜索引擎PPT

1. 积分商城现状 2. 搜索领域知识、原理、应用 3. Solr简介、部署及中文分词 4. SolrJ项目中应用 5. Solr分布式应用 6. 大型网站架构分析

2013-11-19

UML视图的名称

UML视图的图片,通过该图片可以很好的掌握UML视图的画法

2013-03-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除