自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(9)
  • 收藏
  • 关注

转载 庞果网(最小操作数)

从庞果网上,看到一题,是求最小操作数的,具体题目如下:现用python代码实现如下: 1 #!usr/bin/env python 2 #coding:utf-8 3 4 def compareWord(A,B): 5 wordLen = len(A) 6 diff = 0 7 for i in range(...

2013-10-30 11:10:00 134

转载 python win32com在读取word文档时,遇到的问题

1. 使用多线程编程,且需要调用win32com模块来打开word文档时,常见的错误如下:IDispatch = pythoncom.CoCreateInstance(IDispatch, None, clsctx, pythoncom.IID_IDispatch)com_error: (-2147221008, '\xc9\xd0\xce\xb4\xb5\xf7\xd3\x...

2013-10-24 22:47:00 1181

转载 python 如何将ppt和word转化为txt文档

  最近做了关于计算文档中关键词的程序,使用Tf-idf方法去提取,其中需要使用python读取MS word文档和 MS powerpoint中的内容,现将部分讲解和代码贴出来,请指正。  首先,介绍一下win32com,这是个和window链接的模块,实话说,功能是很强大的,在网上看到很多功能,可以用来打开word,ppt,Excel,Access,模拟浏览器等行为,下载地址:h...

2013-10-24 22:18:00 399

转载 机器学习相关数据库(转)

KDD杯的中心,所有的数据,任务和结果。UCI机器学习和知识发现研究中使用的大型数据集KDD数据库存储库。UCI机器学习数据库。AWS(亚马逊网络服务)公共数据集,提供了一个集中的资料库,可以无缝集成到基于AWS的云应用程序的公共数据集。生物测定数据,在虚拟筛选,生物测定数据,对化学信息学,J.由阿曼达Schierz的,有21个生物测定数据集(有效/无效的化合物)可...

2013-10-21 20:59:00 118

转载 scrapy在windows上安装笔记(转)

scrapy是一个不错的开源爬虫,在windows上安装需要以下组件:1.setup-tools为了easy_install2.easy_installw3lib3. easy_installzope.interface4.下载scrapy的win32安装包,并安装5.下载twisted的win32安装包,并安装6.windows版lxml安装,去ht...

2013-09-16 09:32:00 62

转载 Linux(RedHat,Centos)上scrapy详尽安装笔记(转)

原创作者:博客园sharpstill,转载请注明Scrapy是一款非常成熟的爬虫框架,可以抓取网页数据并抽取结构化数据,目前已经有很多企业用于生产环境。对于它的更多介绍,可以查阅相关资料(官方网站:www.scrapy.org)。我们根据官网提供的安装指南,来一步步安装,主要参考了http://doc.scrapy.org/en/latest/intro/instal...

2013-09-16 09:30:00 94

转载 [转] 数据科学家面试常见的77个问题

随着大数据概念的火热,数据科学家这一职位应时而出,那么成为数据科学家要满足什么条件?或许我们可以从国外的数据科学家面试问题中得到一些参考,下面是中国统计网为大家翻译的数据科学家面试常见的77个问题。下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题,供各位同行参考。1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。2、告诉我二个分析或者计算机科...

2013-09-06 15:27:00 136

转载 Selenium with Python 用于网站抓取

  前边一段时间,曾经想做百度图片的抓取,可惜全部都是用javascript封装的,看不到网址,后来不得不转投其他搜索引擎——大神Google(里面的网址是可以直接通过源代码爬取的,只可惜对一些敏感词,搜索不到,这也使得爬取图片大打折扣),后来在网上搜索了一下,才得知需要有一些浏览器渲染引擎,才可以爬取一些含有AJAX、Javascript、CSS网页,Python 用于网站抓取 登录 ...

2013-08-27 22:25:00 87

转载 python字典的索引快速搜索方法比较

闲话少叙,python中经常会对字典的索引进行搜索判断,如判断‘user’是否为{'user1':'New Student','user2':'Old student'}的索引,本文总结了5种方法进行索引的搜索,并比较了运行时间。五种方法有:① index in dict.keys()② dict.has_key(index)③ index in dict...

2013-08-26 18:11:00 1270

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除