![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spider
Simplicity_
这个作者很懒,什么都没留下…
展开
-
爬虫之旅(一)
#!/usr/bin/python#encoding=utf-8__author__ = 'Administrator'import seleniumimport sysimport urllibimport requestsimport reif __name__ == "__main__": import os from selenium import webdriv原创 2017-07-21 18:32:50 · 357 阅读 · 0 评论 -
验证码识别
# encoding=utf-8import syssys.path.append('/home/henson/Documents/coding/bill/captcha_recognition')from captcha_recognition.recognition_img import distinguish_captchafrom PIL import Image,ImageDra原创 2017-11-01 20:00:48 · 318 阅读 · 2 评论 -
爬虫之旅(五)
__author__ = 'Administrator'from bs4 import BeautifulSoupfrom selenium.common.exceptions import NoSuchElementExceptionfrom img_get import get_imgimport seleniumimport sysimport timeimport reimp原创 2017-10-23 20:11:12 · 277 阅读 · 0 评论 -
Linux ___验证码识别
1.下载安装leptonica http://www.leptonica.org/download.html 或者 http://code.google.com/p/leptonica/downloads/list解压后切换到该目录下 ./configure./configure make $make install2.tesseract安装: 要先安装完leptonica才能安装原创 2017-10-24 20:19:05 · 741 阅读 · 0 评论 -
cnki__未解之谜
#!/usr/bin/python#encoding=utf-8__author__ = 'Administrator'from bs4 import BeautifulSoupfrom selenium.common.exceptions import NoSuchElementExceptionimport seleniumimport sysimport timeimpor原创 2017-09-02 20:47:24 · 329 阅读 · 0 评论 -
(转)selenium之切换frame
转自:huilan_same用selenium定位页面元素的时候会遇到定位不到的问题,明明元素就在那儿,用firebug也可以看到,就是定位不到,这种情况很有可能是因为frame frame标签有frameset、frame、iframe三种,frameset跟其他普通标签没有区别,不会影响到正常的定位,而frame与iframe对selenium定位而言是一样的,selenium有一组方法对fr转载 2017-08-17 23:29:09 · 1635 阅读 · 0 评论 -
vp_页面信息所有获取
#!/usr/bin/python#encoding=utf-8__author__ = 'henson'from bs4 import BeautifulSoupfrom prettytable import PrettyTableimport seleniumimport sysimport urllibimport requestsimport timeimport r原创 2017-08-14 23:30:11 · 366 阅读 · 0 评论 -
知网__抓取新发现frame
#!/usr/bin/python#encoding=utf-8__author__ = 'Administrator'from bs4 import BeautifulSoupfrom selenium.common.exceptions import NoSuchElementExceptionimport seleniumimport sysimport timeimpor原创 2017-08-12 18:27:07 · 808 阅读 · 0 评论 -
维普页面信息抓取
#!/usr/bin/python#encoding=utf-8__author__ = 'Administrator'from bs4 import BeautifulSoupfrom prettytable import PrettyTableimport seleniumimport sysimport urllibimport requestsimport timei原创 2017-08-11 21:17:19 · 1452 阅读 · 2 评论 -
维普__获取页面简介
#!/usr/bin/python#encoding=utf-8__author__ = 'Administrator'from bs4 import BeautifulSoupimport seleniumimport sysimport urllibimport requestsimport timeimport reimport csvif __name__ ==原创 2017-08-08 19:43:19 · 403 阅读 · 0 评论 -
维普 _自动导出xml
#!/usr/bin/python#encoding=utf-8__author__ = 'Administrator'from bs4 import BeautifulSoupimport seleniumimport sysimport urllibimport requestsimport timeimport reif __name__ == "__main__":原创 2017-08-05 21:25:28 · 424 阅读 · 0 评论 -
维普作者简介
#!/usr/bin/python#encoding=utf-8__author__ = 'Administrator'from bs4 import BeautifulSoupimport seleniumimport sysimport urllibimport requestsimport timeimport reif __name__ == "__main__":原创 2017-08-04 21:13:33 · 518 阅读 · 0 评论 -
抓取数据 格式化
#!/usr/bin/python#encoding=utf-8__author__ = 'Administrator'from bs4 import BeautifulSoupimport seleniumfrom prettytable import PrettyTableimport sysimport urllibimport requestsimport timei原创 2017-07-31 20:54:06 · 440 阅读 · 0 评论 -
(转)python爬虫技巧
from http://obmem.info/?p=753 一、gzip/deflate支持 现在的网页普遍支持gzip压缩,这往往可以解决大量传输时间,以VeryCD的主页为例,未压缩版本247K,压缩了以后45K,为原来的1/5。这就意味着抓取速度会快5倍。然而python的urllib/urllib2默认都不支持压缩,要返回压缩格式,必须在request的header里面写明’accep转载 2017-07-26 10:56:55 · 396 阅读 · 0 评论 -
爬虫之旅(四)
#!/usr/bin/python#encoding=utf-8__author__ = 'Administrator'from bs4 import BeautifulSoupimport seleniumimport sysimport urllibimport requestsimport timeimport reif __name__ == "__main__":原创 2017-07-25 20:19:15 · 228 阅读 · 0 评论 -
爬虫之旅(三)
!/usr/bin/python#encoding=utf-8__author__ = 'Administrator'from bs4 import BeautifulSoupimport seleniumimport sysimport urllibimport requestsimport timeimport reif __name__ == "__main__":原创 2017-07-24 20:31:16 · 280 阅读 · 0 评论 -
爬虫之旅(二)
#!/usr/bin/python#encoding=utf-8__author__ = 'Administrator'from bs4 import BeautifulSoupimport seleniumimport sysimport urllibimport requestsimport reif __name__ == "__main__": import os原创 2017-07-23 19:57:09 · 301 阅读 · 0 评论 -
简版测试driver.get
from PIL import Imageimport seleniumimport sysimport timeimport reimport csvimport syssys.path.append('/home/henson/Documents/coding/bill/captcha_recognition')from captcha_recognition.recogni原创 2017-11-02 19:58:08 · 533 阅读 · 0 评论