acfcv00088-CSDN博客

转载庞果网（最小操作数）

从庞果网上，看到一题，是求最小操作数的，具体题目如下：现用python代码实现如下： 1 #!usr/bin/env python 2 #coding:utf-8 3 4 def compareWord(A,B): 5 wordLen = len(A) 6 diff = 0 7 for i in range(...

2013-10-30 11:10:00 134

转载 python win32com在读取word文档时，遇到的问题

1. 使用多线程编程，且需要调用win32com模块来打开word文档时，常见的错误如下：IDispatch = pythoncom.CoCreateInstance(IDispatch, None, clsctx, pythoncom.IID_IDispatch)com_error: (-2147221008, '\xc9\xd0\xce\xb4\xb5\xf7\xd3\x...

2013-10-24 22:47:00 1181

转载 python 如何将ppt和word转化为txt文档

　　最近做了关于计算文档中关键词的程序，使用Tf-idf方法去提取，其中需要使用python读取MS word文档和 MS powerpoint中的内容，现将部分讲解和代码贴出来，请指正。　　首先，介绍一下win32com，这是个和window链接的模块，实话说，功能是很强大的，在网上看到很多功能，可以用来打开word，ppt，Excel，Access，模拟浏览器等行为，下载地址：h...

2013-10-24 22:18:00 399

转载机器学习相关数据库(转)

KDD杯的中心，所有的数据，任务和结果。UCI机器学习和知识发现研究中使用的大型数据集KDD数据库存储库。UCI机器学习数据库。AWS（亚马逊网络服务）公共数据集，提供了一个集中的资料库，可以无缝集成到基于AWS的云应用程序的公共数据集。生物测定数据，在虚拟筛选，生物测定数据，对化学信息学，J.由阿曼达Schierz的，有21个生物测定数据集（有效/无效的化合物）可...

2013-10-21 20:59:00 118

转载 scrapy在windows上安装笔记（转）

scrapy是一个不错的开源爬虫，在windows上安装需要以下组件：1.setup-tools为了easy_install2.easy_installw3lib3. easy_installzope.interface4.下载scrapy的win32安装包,并安装5.下载twisted的win32安装包,并安装6.windows版lxml安装，去ht...

2013-09-16 09:32:00 62

转载 Linux(RedHat,Centos)上scrapy详尽安装笔记（转）

原创作者:博客园sharpstill,转载请注明Scrapy是一款非常成熟的爬虫框架，可以抓取网页数据并抽取结构化数据，目前已经有很多企业用于生产环境。对于它的更多介绍，可以查阅相关资料（官方网站：www.scrapy.org）。我们根据官网提供的安装指南，来一步步安装，主要参考了http://doc.scrapy.org/en/latest/intro/instal...

2013-09-16 09:30:00 94

转载 [转] 数据科学家面试常见的77个问题

随着大数据概念的火热，数据科学家这一职位应时而出，那么成为数据科学家要满足什么条件？或许我们可以从国外的数据科学家面试问题中得到一些参考，下面是中国统计网为大家翻译的数据科学家面试常见的77个问题。下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题，供各位同行参考。1、你处理过的最大的数据量？你是如何处理他们的？处理的结果。2、告诉我二个分析或者计算机科...

2013-09-06 15:27:00 136

转载 Selenium with Python 用于网站抓取

　　前边一段时间，曾经想做百度图片的抓取，可惜全部都是用javascript封装的，看不到网址，后来不得不转投其他搜索引擎——大神Google（里面的网址是可以直接通过源代码爬取的，只可惜对一些敏感词，搜索不到，这也使得爬取图片大打折扣），后来在网上搜索了一下，才得知需要有一些浏览器渲染引擎，才可以爬取一些含有AJAX、Javascript、CSS网页，Python 用于网站抓取登录 ...

2013-08-27 22:25:00 87

转载 python字典的索引快速搜索方法比较

闲话少叙，python中经常会对字典的索引进行搜索判断，如判断‘user’是否为{'user1':'New Student','user2':'Old student'}的索引，本文总结了5种方法进行索引的搜索，并比较了运行时间。五种方法有：① index in dict.keys()② dict.has_key(index)③ index in dict...

2013-08-26 18:11:00 1270