爬虫
做测试的喵酱
不舍爱与自由。
展开
-
爬取百度相关搜索结果
背景:有一大堆query,需要获取在百度上的搜索结果。项目结构如下:一共有两个脚本文件paqushuju.py 和threadingdata.pypaqushuju.py 是单线程脚本threadingdata.py 是多线程脚本paqushuju.py 如下:# -*- coding:utf-8 -*-# paqushuju.py from selenium import webdriverimport timeimport xlrdimport x...原创 2021-03-02 18:08:49 · 1514 阅读 · 0 评论 -
phantomjs:raise WebDriverException("Unable to start phantomjs with ghostdriver: %s" % e)
raise WebDriverException("Unable to start phantomjs with ghostdriver: %s" % e)selenium.common.exceptions.WebDriverException: Message: Unable to start phantomjs with ghostdriver: [WinError 2] 系统找不到指定的文...原创 2018-06-15 10:26:35 · 3392 阅读 · 1 评论 -
安装pillow
1.下载匹配的whl文件下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/选择匹配版本cp后面跟的是python版本 win后面跟着位数。这些这样查询显示我的是3.6.3版本 32位找匹配文件如下:2.开始安装:C:\Users\lenovo>pip3 install C:\Users\lenovo\Downloads\Pillow-5.1.1...原创 2018-06-21 20:21:05 · 3269 阅读 · 1 评论 -
安装tesserocr错误解决办法
1.下载匹配的whl文件。链接地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases2.查看自己的python版本 匹配对应文件Python 版本 3.6.3 win32匹配对应文件下载完成后使用pip安装:即可安装成功...原创 2018-06-21 19:48:33 · 3323 阅读 · 0 评论 -
Error opening data file Tesseract-OCR\tessdata/eng.traineddata问题解决
原文地址:https://blog.csdn.net/u013401853/article/details/78998206Error opening data file Tesseract-OCR\tessdata/eng.traineddata问题解决在安装完tesseract, pytesseract后执行测试命令,发现打印如下错误:Error opening data file \Prog...转载 2018-06-21 17:47:11 · 9812 阅读 · 2 评论 -
解决Pip install Pillow 失败问题
microsoft visual c++ 14.0 is required问题解决办法方法2因为提示需要c++ 14.0,下载14.0.点击此处进入下载。解压安装(可能比较花时间)安装完毕再次执行pip install xx...转载 2018-06-21 14:13:57 · 10932 阅读 · 0 评论 -
tesserocr
1.OCR,光学识别符。tesserocr是Python的一个OCR库,但其实是对tesseract做的一层Python APIde 封装,所以他的核心是tesseract。因此,在安装tesserocr之前,我们需要先安装tesseract。2.相关链接tesserocr PyPI : https://pypi.python.org/pypi/tesserocrtesseract下载地址: h...转载 2018-06-21 09:39:17 · 14914 阅读 · 5 评论 -
爬虫-爬取QQ空间 并生成图片
#coding:utf-8import timefrom selenium import webdriverfrom lxml import etree#这里一定要设置编码格式,防止后面写入文件时报错import sysreload(sys)sys.setdefaultencoding('utf-8')friend = '1467' # 朋友的QQ号,朋友的空间要求允许你能访...转载 2018-02-08 09:52:58 · 4614 阅读 · 0 评论 -
爬虫-爬取豆瓣2
# coding:utf-8from lxml import etreeimport requests#获取页面地址def getUrl(): for i in range(10): url = 'https://music.douban.com/top250?start={}'.format(i*25) scrapyPage(url)#爬取每页数据d...转载 2018-02-08 09:49:46 · 234 阅读 · 0 评论 -
爬虫-爬取豆瓣1
# coding:utf-8from lxml import etreeimport requestsfor i in range(10): url='https://music.douban.com/top250?start={}'.format(i*25) html = requests.get(url).text #这里一般先打印一下html内容,看看是否有内容再...转载 2018-02-08 09:48:56 · 372 阅读 · 0 评论 -
Python-读取Excel
# coding=utf-8import xlrddata = xlrd.open_workbook('C:\Users\chen_s\Desktop\data.xlsx')table = data.sheets()[0] #通过索引顺序获取table, 一个execl文件一般都至少有一个tableprint table.nrows #行6数print table.ncol...转载 2018-02-08 09:46:15 · 223 阅读 · 0 评论