最近爬虫又解决了很多问题,算是保存这部分的吧。
首先,我们如果想要抓取本地txt文件中的内容拿到特定网址去搜索。然后爬取搜索结果的话,这个很简单:
f=open('C://Python27//1.txt') #只需要通过这句代码打开你本地对应路径的文件就OK
但是如果你想要打开excel表格呢?这里就需要下载xlrd库。百度搜索就可以,解压。在cmd中进入解压文件夹然后输入:python setup.py install就可以调用了
怎么打开excel呢:
import xlrd
data = xlrd.open_workbook("C://Python27//2.xlsx")
table = data.sheets()[0] #进入你excel的sheet
nrows = table.nrows #行
ncols = table.ncols #列
rowValues=[]
for i in xrange(0,nrows):
rowValues.append(table.row_values(i)) #这样就可以打开你本地的excel了,当然,我把它保存在了列表里方便后面处理
读取文件完毕后你就调用你读取的文件信息去网站爬虫什么的,具体怎么爬这里不做介绍了。
接下来就是爬取数据的保存了