2015年05月_搜索与推荐Wiki

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 01月

原创 Python开发安装的一些常用模块

========================================================================== 本文主要是博主自己看到的或者了解的，但更大一部分是博主要使用的一些python模块，如有错误，还望大家指正 windos下安装第三方模块时若出错请参考：http://blog.csdn.net/gamer_g...

2015-05-31 00:12:20 11153 2

原创新浪明星日志推荐系统——爬虫爬取数据（2）

由于之前的改造，现在将爬虫的功能做了一些改变，具体实现的功能是将推荐的日志全部抓取下来，并存放在以文章标题命名的文件中，代码如下：import urllibimport os,reimport sysfrom bs4 import BeautifulSoupreload(sys)sys.setdefaultencoding("utf-8")def if_str(str_t...

2015-05-26 08:54:32 3547

原创新浪明星日志推荐系统——爬虫爬取数据（1）

今天有了一个想法，想自己用Python写一个新浪明星日志推荐系统那么第一步要完成的工作就是获得新浪明星日志的数据，于是自己写了一个爬虫，实现的功能是爬取新浪明星日志的作者，推荐的文章链接，以及作者日志列表或者首页链接，具体程序如下：# -*- coding: utf-8 -*-"""Created on Wed May 20 13:55:00 2015@author: Thi...

2015-05-21 07:52:54 4203

原创 python 爬虫爬取腾讯新闻科技类的企鹅智酷系列（1）

废话不多说，直接贴代码，主要采用BeautifulSoup写的#coding:utf8from bs4 import BeautifulSoupimport urllib2import urllibimport osi = 0j = 0list_a = []def gettext(href): global j,list_a page = urll...

2015-05-19 00:19:18 3955

原创 BeautifulSoup中解决乱码问题

由于初步学习Python爬取网页文本内容，在存储文本时出现乱码问题我的代码如下：import urllibfrom bs4 import BeautifulSoupimport sysreload(sys)sys.setdefaultencoding('utf-8')fp = file("test.txt","wb+")page=urllib.urlo...

2015-05-18 18:50:54 3283

高精度的加减乘除

高精度对于初学者来说并不是容易的，所以小编在这里这里整理了高精度的加减乘除运算，在一个程序中实现，希望对各位童鞋有所帮助

2014-08-23

算法步骤： 1. 将n个元素每5个一组，分成n/5(上界)组。 2. 取出每一组的中位数，任意排序方法，比如插入排序。 3. 递归的调用selection算法查找上一步中所有中位数的中位数，设为x，偶数个中位数的情况下设定为选取中间小的一个。 4. 用x来分割数组，设小于等于x的个数为k，大于x的个数即为n-k。 5. 若i==k，返回x；若ik，在大于x的元素中递归查找第i-k小的元素。终止条件：n=1时，返回的即是i小元素。

2015-07-29

NLP汉语自然语言处理原理与实战

自然语言处理大体是从1950年代开始，虽然更早期也有作为。1950年，图灵发表论文“计算机器与智能”，提出现在所谓的“图灵测试”作为判断智能的条件。 1954年的乔治城实验涉及全部自动翻译超过60句俄文成为英文。研究人员声称三到五年之内即可解决机器翻译的问题。[1]不过实际进展远低于预期，1966年的ALPAC报告发现十年研究未达预期目标，机器翻译的研究经费遭到大幅削减。一直到1980年代末期，统计机器翻译系统发展出来，机器翻译的研究才得以更上一层楼。 1960年代发展特别成功的NLP系统包括SHRDLU——一个词汇设限、运作于受限如“积木世界”的一种自然语言系统，以及1964-1966年约瑟夫·维森鲍姆模拟“个人中心治疗”而设计的ELIZA——几乎未运用人类思想和感情的讯息，有时候却能呈现令人讶异地类似人之间的互动。“病人”提出的问题超出ELIZA 极小的知识范围之时，可能会得到空泛的回答。例如问题是“我的头痛”，回答是“为什么说你头痛？

2018-06-15