- 博客(4)
- 收藏
- 关注
原创 实用的一些倒排索引代码
倒排索引作用倒排索引是为了加速搜索过程。例如做问答系统的问题匹配时,数据库过大,用传统方法将所有问题与用户输入的问题一一做相似度匹配耗时很多。而倒排索引可以直接定位到与用户输入有相同词汇的问题,甚至可以简单地将词语的重合度当成相似度来抽取对应答案,大大提高了效率。例如,我有10万条问答对,问句中只出现了100次“篮球”这个词语,而用户输入中有“篮球”这个词语,传统方法需要一一匹配相似度10万次,而倒
2017-06-30 11:58:58 2104
原创 python爬虫提取信息:正则表达式和xpath
由于作者水平有限,只写出相关关键词,并未给出详细解释。爬虫主要是两个功能,一是访问网页,二是从网页中提取数据。事实上访问网页基本都是调用接口直接就可以访问,而从网页中正确地提取数据是主要工作量所在。这里给出两种提取数据的选择和用到的相关库。1.python正则表达式:正则表达式语法规则参考 http://www.cnblogs.com/fnng/archive/
2017-06-20 17:26:29 3676
原创 python编码类型整理
\x 是ascii码\u 是unicode(utf8)gbk?ascii和unicode转换中str(tempWord)和unicode(tempWord, "utf8")互为逆运算
2017-05-23 09:45:17 305
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人