2019年07月_FocusOneThread

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 TfidfTransformer 输出

from sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.feature_extraction.text import CountVectorizerimport jsoncorpus = []f = open("data/msmarco/collection.tsv",mode="r",encodi...

2019-07-30 14:33:17 2044

原创 csr_matrix 遍历

调用toarray()方法后即可随便遍历

2019-07-30 14:30:40 2044

原创 tfidf python 中文实例

from sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.feature_extraction.text import CountVectorizerif __name__ == "__main__": corpus = ["我来到北京清华大学", # 第一个文本切词后的结果，词之间以空格...

2019-07-25 10:19:37 2682

原创词向量工程化多线程节省内存

如果有N个模型实例在内存，就要有N份词向量在内存，解决方法：在模型外面维护1个词向量库，只传该输入模型的那几个句子的每个词的词向量进去，模型内部不用embedding_lookup接口，...

2019-07-19 11:32:50 225 1

原创 python BM25

安装pip install rank-bm25from rank_bm25 import BM25Okapicorpus = [ "Hello there good man!", "It is quite windy in London", "How is the weather today?"]tokenized_corpus = [doc.split(" ...

2019-07-18 10:33:28 1640

原创 python B树

安装pip install BTreesfrom BTrees.OOBTree import OOBTreet = OOBTree()t.update({1: "red", 2: "green", 3: "blue", 4: "spades"})可见BTree数据的输入格式

2019-07-18 09:52:39 1010 1

原创一个向量和一组向量的attention计算，mxnet实现

user_input = mx.sym.reshape(user_input_before_reshape, shape=(-1, total_group_length, eb_dim))att_user_input = mx.sym.reshape(user_input, (bs, total_group_length, eb_dim))att_node_input = mx.sym.res...

2019-07-10 11:50:17 524

原创 python list 完全相等的坑：元素顺序不同判定为不相等

list1 = ["one","two","three"]list2 = ["one","two","three"]print(list1 == list2) # Truelist1 = ["one","three","two"]list2 = ["one","two","three"]print(list1 == list2) # False 解决办法list1 = ["one"...

2019-07-09 17:35:10 17500 5

原创 python list contains 判断列表是否包含另一列表

判断列表是否包含另一列表list1 = ["one","two","three"]list2 = ["one","three","two","four"]set(list1).issubset(set(list2))set(list2).issuperset(set(list1))

2019-07-09 17:31:25 6592

原创 scrapy里用的response.xpath的一键选取

2019-07-09 16:56:43 4328

原创 OpenNMT做端对端的接口使用

安装：其中requirements.txt里安装的是很新的torchtextgit clone --branch 0.9.1 https://github.com/OpenNMT/OpenNMT-py.gitcd OpenNMT-pypip install -r requirements.txt cd ..预处理：其中src-train.txt和tgt-train.txt为原始英文...

2019-07-09 15:16:29 1319 8

原创 TDM阅读笔记，在推荐系统的应用

《Learning Tree-based Deep Model for Recommender Systems》问题•每个商品的向量表示/embedding 随机初始化。•每个用户的历史信息的向量表示/embedding 随机初始化。•我们输入深度模型这两个embedding，输出他们关联程度的得分。•也就是如果我们要得到一个用户对所有商品的每个得分，然后排序，取出得分最高几个。...

2019-07-08 16:00:33 1247

原创 CPP做pattern match的库

OpenFst

2019-07-05 17:30:28 282

原创 linux上maven报错：The JAVA_HOME environment variable is not defined correctly

看下mvn的源码，设置$JAVA_HOME/bin/下有java文件且检查一下可执行权限

2019-07-05 16:35:43 3739

原创 MS MARCO数据集，Passage Ranking数据格式说明

摘自https://github.com/microsoft/MSMARCO-Passage-Ranking

2019-07-05 14:50:33 4540

原创文本聚类 baseline 实例

from sklearn.cluster import KMeansimport numpy as np# hidden_dim = 2X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])kmeans = KMeans(n_clusters=2, random_state=0).fit...

2019-07-05 09:56:57 769

原创 transformer里的attention mask产生的单向双向效果和xlnet里的效果

1，2，3，4是一句话的四个词，并打乱了顺序，以xlnet为例，图中，上图和下图的区别是下图扣去邪线，上图表示，1可以看到1，2可以看到2，3可以看到3，4可以看到4，下图表示，1不能看到1，2不能看到2，3不能看到3，4不能看到4，把这个mask矩阵左下角全部置0，则是单向transformer，把整个mask矩阵全部置1，则是双向transformer，回到上图，矩阵第一行...

2019-07-03 11:52:02 5261 3