2019年07月_艾文教编程

12月 11月 10月 09月 08月 07月 06月 04月

原创自然语言处理（NLP）：05 基于 doc2vec 特征抽取+电影情感文本分类

本章节研究内容： doc2vec 提取句子特征+基于doc2vec 特征工程文本分类问题基于Doc2Vec情感分析词向量在NLP被广泛应用，通过引入Doc2Vec，不仅可以对单个词进行词向量表示，而且可以对整个句子或文章进行表示。想象一下，能够使用固定长度的向量表示整个句子，然后我们可以使用标准的分类算法去分类。是一件很神奇的事情。本章以Word2Vec 为基础，使用Do...

2019-07-26 16:09:06 1758

原创自然语言处理（NLP）：04 word2vec 入门介绍

词向量表示One-Hot RepresentationNLP 中最直观，也是到目前为止最常用的词表示方法是 One-hot Representation，这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小，其中绝大多数元素为 0，只有一个维度的值为 1，这个维度就代表了当前的词。举个栗子，“话筒”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …]“...

2019-07-20 10:34:33 659 1

原创自然语言处理（NLP）： 03 tfidf 特征抽取&n-gram 扩展 + 朴素贝叶斯模型

本章节研究内容：基于TFIDF特征抽取&ngram + 朴素贝叶斯算法文本分类

2019-07-17 23:57:39 3128

原创自然语言处理（NLP）：02 基于词袋模型（BOW）特征抽取&n-gram&扩展特征维度数 + 贝叶斯算法文本分类

本章节研究内容：基于词袋模型（BOW）特征抽取&n-gram&扩展特征维度数 + 贝叶斯算法文本分类有任何问题，可以交流：1121025745@qq.com实践验证：相比与0.8751187431494337 不使用ngram和扩展特征情况下准确率：0.8760321519912313，高出0.1％提升。我们可以把特征做得更棒一点，比如说，我们试试...

2019-07-17 00:42:33 2041 2

原创自然语言处理（NLP）： 01 基于词袋模型（BOW）特征抽取 + 贝叶斯算法新闻文本分类

本章节研究内容：基于词袋模型（BOW）特征抽取 + 贝叶斯算法文本分类CountVectorizer 使用基于词袋模型特征提取，即我们使用词频TF来抽取特征from sklearn.feature_extraction.text import CountVectorizertexts=["dog cat fish","dog cat cat","fish bird", 'bird']cv = CountVectorizer(analyzer='word',max_features=4000)

2019-07-17 00:03:44 3751 4

原创 Python数据分析分享

Python数据分析

2019-07-02 14:33:22 1143 2

原创 Python数据分析 pyecharts 生成图片问题

采用pyecharts 生成图片的时候，在使用前需要做两件事件 1. 安装snapshot_seleniumpip3 install snapshot_selenium2. 设置chromedriver驱动到PATH 中常见错chromedriver或者chromedriver.exe 没有放到PATH 下，导致使用的时候出现错误windows或者mac 下安装chrom...

2019-07-01 18:15:08 6034 2

pytorch-flask-api.zip

本章节中，我们将使用Flask 部署一个Pytorch模型，并未模型预测提供一个REST API 接口。下面，我们部署一个预训练好的模型DenseNet 121，该模型用于检测图片

2019-08-26

word2vec-sentiments-IMDB-Data.zip

词向量在NLP被广泛应用，通过引入Doc2Vec，不仅可以对单个词进行词向量表示，而且可以对整个句子或文章进行表示。想象一下，能够使用固定长度的向量表示整个句子，然后我们可以使用标准的分类算法去分类。是一件很神奇的事情。本章以Word2Vec 为基础，使用Doc2Vec 来做些情感分析的任务问题。 IMDB预料进行分类（积极or消极），可以提供的数据集

2019-07-26

tachyon 介绍

Tachyon是以内存为中心的分布式文件系统，能够为集群计算框架（如：Spark，MapReduce等）提供内存级速度的跨集群文件共享服务。本文档让你快速入门

2016-02-18

solr搜索引擎-课程文件培训

本文档包括以下内容，通过下载该内容可以让你掌握solr学习的入门和适应基本开发。 1.学员操作手册-Solr搜索自动补全 2.solr实训教程.doc 3.积分商城基于Solr的搜索引擎优化.pdf 4.基于Solr的搜索引擎优化讲义.pdf 5.课程大纲-基于搜索引擎培训.doc 6.学员操作手册-Solr数据库插入索引.doc 7.学员操作手册-部署solr服务.doc

2014-02-20

solr企业级搜索引擎准备阶段

Apache Solr 是一个开源的搜索服务器，Solr 使用 Java 语言开发，主要基于 HTTP 和 Apache Lucene 实现. Solr 运行在Java的Servlet容器上，诸如： Tomcat or Jetty。 Solr 是一个免费的开源搜索引擎免费软件。 Solr 是一个基于Lucence的开源项目，可以通过下面网址下载。 http://lucene.apache.org/solr/ http://archive.apache.org/dist/lucene/solr/

2013-11-19