- 博客(17)
- 收藏
- 关注
原创 pyndri_document_length
import pyndriimport sysindex_path='../../Dataset/Robust2004/robust2004_idx'max_doc_length=5with pyndri.open(index_path) as index: for document_id in range(index.document_base(), index.maximum...
2019-04-28 23:24:50 123
原创 pyndri_dictionary
统计文档的词频import pyndriimport sysindex_path='../../Dataset/Robust2004/robust2004_idx'with pyndri.open(index_path) as index: token2id, id2token, id2df = index.get_dictionary() id2tf = index.g...
2019-04-28 23:14:07 117
原创 pyndri安装及使用
文章目录0. indri安装以及pyindri安装indri安装pyndri安装1. 构建索引的参数2. 建立索引3. 使用根据某个query,找到排名靠前的10篇文档计算某个query和指定文档之间的分数0. indri安装以及pyindri安装indri安装Indri:安装pyndri安装pyndri:安装1. 构建索引的参数新建一个manifest.json文件<par...
2019-04-28 22:49:40 568
原创 py4j的简易使用版本
安装py4j pip install py4j因为我的python环境是anaconda3/envs/sdd_py36,所以安装以后py4j 的python库的位置是/anaconda3/envs/sdd_py36/lib/python3.6/site-packages/py4j的java库的位置是/anaconda3/envs/sdd_py36/share/py4j/py4j0....
2019-04-28 21:15:42 1035
原创 pandas groupby取出某组数据
>>> x=pd.DataFrame({'number': [1,1,2,2], 'Q1': ['B0', 'B1', 'B2', 'B3'], 'Q2': ['C0', 'C1', 'C2', 'C3'], 'Q3': ['D0', 'D1', 'D2', 'D3']},)&...
2019-04-28 11:08:19 18063
原创 pandas 合并数据遇到的坑
目标原始表: number Q1 Q2 Q30 1 B0 C0 D01 1 B1 C1 D12 1 B2 C2 D23 1 B3 C3 D3变为:number Q1 Q2 Q30 1 B0 C0 D01 1 B1 C1 D12 1 B2 ...
2019-04-28 11:01:08 643
原创 indri 资源
Indri的IndriBuildIndex索引命令Indri:安装及使用Indri使用会遇到的坑和BUGIndri的使用pyndri, pyndri是Indri搜索引擎的python 接口indri和javagateway结合
2019-04-28 10:49:01 276
原创 列表合并为字典
目标:给定两个列表,将其合并到一个字典中ids = ['1_2', '1_3', '1_2', '1_3']scores=[s_1, s_2, s_3, s_4]得到一个字典ans={'1_2': [s_1, s_3], '1_3': [s_2, s_4]}采用dict(zip(ids,scores))时,会出现后面元素覆盖前面元素的情况例如>>> ids =...
2019-04-23 20:26:37 702
原创 pad_sequence在pytorch中的使用
>>> from torch.nn.utils.rnn import pad_sequence>>> input_x =[[1,2,3],[4,5,6,7,8],[8,9]]>>> norm_data_pad = pad_sequence([torch.from_numpy(np.array(x)) for x in input_x], b...
2019-04-23 13:33:40 11474 2
原创 numpy 变长元素拼接
>>> a=np.random.rand(3)>>> aarray([0.22704923, 0.195327 , 0.01280859])>>> b=np.random.rand(5)>>> barray([0.91722758, 0.7993601 , 0.4582875 , 0.08062776, 0.464...
2019-04-23 13:26:27 1459
原创 pad_sequence —— 填充句子到相同长度
torch.nn.utils.rnn.pad_sequence(sequences, batch_first=False, padding_value=0)用padding_value 填充一系列可变长度的tensor,把它们填充到等长Example>>> from torch.nn.utils.rnn import pad_sequence>>> a...
2019-04-23 10:50:20 14558 2
原创 当 tqdm 遇上 enumerate
tqdm是一个可以显示进度条的模块pip install tqdm # 安装from tqdm import tqdmfor item in tqdm(range(100)): # do something>>> # output100%|██████████████████████████████████████| 100/100 [00:00<00:0...
2019-04-21 16:47:21 39418 9
转载 机器学习 - 模型推导
通俗理解LDA主题模型从拉普拉斯矩阵说到谱聚类从贝叶斯方法谈到贝叶斯网络CNN笔记:通俗理解卷积神经网络程序员面试、算法研究、编程艺术、红黑树、机器学习5大系列集锦BAT机器学习面试1000题系列(第1~305题)一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD一文通透优化算法:从随机梯度、随机梯度下降法到牛顿法、共轭梯度通俗理解ka...
2019-04-15 09:25:32 268
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人