爬虫
浮东源
这个作者很懒,什么都没留下…
展开
-
MongoCache
# coding=utf-8import pickleimport zlibfrom datetime import datetime,timedeltaimport requestsfrom pymongo import MongoClientfrom bson.binary import Binaryclass MongoCache(object): """ ...原创 2018-12-19 19:46:12 · 205 阅读 · 0 评论 -
通用爬虫
import hashlibimport queue # 队列import reimport timefrom datetime import datetimefrom threading import Thread # 多线程from urllib import robotparser # 解析网站robots.txt文件from urllib.parse import ur...原创 2018-12-20 18:03:33 · 301 阅读 · 0 评论 -
xpath和css及BeautifulSoup选择器的使用
'''/从根标签开始//从当前标签 后续节点含有即可选出*通配符,选择所有//div/book[1]/title 选择div下第一个book标签的title元素//div/book/title[@lang='zh'] 选择title属性含有lang且内容是zh的title元素//div/book/title //book/title //title 具有相同的结果,因为使用相对路径最...原创 2018-12-20 19:15:06 · 292 阅读 · 0 评论 -
selenium
import timefrom selenium.webdriver.common.action_chains import ActionChainsfrom selenium import webdriverfrom selenium.webdriver.firefox.options import Options as FOptionsoptions = FOptions()bro...原创 2018-12-25 21:17:45 · 179 阅读 · 0 评论