2019年05月_thinker_1120

10月 09月 08月 06月 05月 04月 03月

原创 fastText文本分类

http://fasttext.apachecn.org/#/doc/zh/supervised-tutorial

2019-05-27 12:27:19 1356

场景描述：一句话是一个文本序列，通常可以直接使用word2vec编码；类似的，用户浏览商城时，依先后顺序点击的物品id，也构成物品序列，可以对各个用户的物品序列用word2vec训练。模型训练完，对一个新来的物品id，可以用模型预测，预测的向量就是对物品的embedding向量。%matplotlib inlineimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snspl

2019-05-27 12:26:18 1932

原创词袋模型

在语言处理中，用向量x表示文本数据，以反映文本的各种语言属性，这称为特征提取或特征编码；而词袋模型Bag-of-words（简称BoW）就是一种可以 / 以多种方式 / 从文档中 / 对文本数据 / 进行特征提取 / 的方法。词袋是文本的表示，它涉及两件事：（1）已知单词的词汇；（2）衡量已知单词的存在。词袋被称为单词的“ 包 ”，因为它仅关注文档中是否出现已知单词，而关于文档中单词的顺序或结...

2019-05-26 16:11:43 2196

原创 fastText的基本原理及参数

fastText原理对于一个长度为TTT的句子为w1,w2,...,wTw_1,w_2,...,w_Tw1,w2,...,wT，假设每个词都跟其相邻的词的关系最密切，即每个词都由相邻的词决定的(CBOW模型)，或每个词都决定了相邻的词(Skip-gram模型)。为了基于语料库生成模型的训练样本，选取一个长度为2c+1(目标词前后各选c个词)的滑动窗口，从语料库中抽取一个句子：将滑动窗口由左至右滑动，每移动一次，窗口中的词组就形成了一个训练样本。优化目标：哈夫曼树fastText库的使用fa

2019-05-26 15:04:02 4078

原创 Vim的基本用法

Vim的基本用法（0）设置Vim编辑器语法颜色，直接去github上找vimrc设置，直接贴到vimrc里https://raw.githubusercontent.com/amix/vimrc/master/vimrcs/basic.vimvim ~/.vimrc（1）Vim编辑模式#光标按字母上下左右移动H左 L右 J下 K上#光标按单词前后移动W：跳到下一个单词word...

2019-05-26 13:45:30 522

test_ctr.zip

贝叶斯平滑机制计算ctr更能反映物品的点击率，用矩估计估计出来的参数alpha和beta，再把相应的给ctr计算做平滑，实验证明，使用该平滑机制计算的ctr更能反应物品的热度。

2020-05-29

underexpose_train.zip

用户点击的item序列embedding使用数据，类似一句话是一个文本序列，通常可以直接使用word2vec编码，同样可以对用户点击物品id序列进行编码。

2020-05-29

tfrecord数据.zip

tensorflow实战场景tfrecord方式读取数据的数据样本，现在tensorflow架构里限制整个流程瓶颈的是数据IO，用Queue机制异步的方式(生产者消费者模式)实现数据IO可以高效完成数据的预处理和读取，有效利用GPU资源。

2020-05-17

数据集demo-word.sh.zip

google-code的word2vec训练工具配套数据，demo-word.sh

2019-09-19

word2vec.zip

This tool provides an efficient implementation of the continuous bag-of-words and skip-gram architectures for computing vector representations of words. These representations can be subsequently used in many natural language processing applications and for further research.

2019-09-19

README.md文档

spark入门联系wordcount等相关操作文档~ Spark is a fast and general cluster computing system for Big Data. It provides high-level APIs in Scala, Java, Python, and R, and an optimized engine that supports general computation graphs for data analysis. It also supports a rich set of higher-level tools including Spark SQL for SQL and DataFrames, MLlib for machine learning, GraphX for graph processing, and Spark Streaming for stream processing.

2019-08-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

公众号：瑞行AI

原创 fastText文本分类

原创用户点击item序列embedding

原创词袋模型

原创 fastText的基本原理及参数

原创 Vim的基本用法

test_ctr.zip

underexpose_train.zip

tfrecord数据.zip

数据集demo-word.sh.zip

word2vec.zip

README.md文档

cnews.zip 新浪新闻RSS订阅频道10类文本数据

SI4安装及破解文件.zip

cooking.stackexchange.tar.gz

空空如也

原创 fastText文本分类

原创 用户点击item序列embedding

原创 词袋模型

原创 fastText的基本原理及参数

原创 Vim的基本用法

test_ctr.zip

underexpose_train.zip

tfrecord数据.zip

数据集demo-word.sh.zip

word2vec.zip

README.md文档

cnews.zip 新浪新闻RSS订阅频道10类文本数据

SI4安装及破解文件.zip

cooking.stackexchange.tar.gz

空空如也

原创用户点击item序列embedding

原创词袋模型