![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spider
m_spider
相信是一切美好de开始, 坚持是一切成功de开始
展开
-
mac系统 selenium配合无界面谷歌浏览器handless+ 模仿手机登陆的配置
from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsdef share_browser():# 配置浏览器信息chrome_options = Options()chrome_options.add_argument('--headless')chrome_options....原创 2018-06-04 00:00:00 · 1619 阅读 · 0 评论 -
设置selenium 自动加载flash
设置浏览器自动加载爬虫from selenium import webdriverfrom selenium.webdriver.chrome.options import OptionschromeOpitons = Options()prefs= { "profile.managed_default_content_settings.images":1, "profile....原创 2018-05-28 18:47:59 · 7239 阅读 · 2 评论 -
使用selenium实现某网页游戏的自动登陆,flash加载和嵌套页面的切换
import urllib.requestfrom selenium import webdriverfrom http.cookiejar import CookieJar, LWPCookieJarimport timefrom selenium.webdriver.chrome.options import Optionsheaders = {'Cache-Control'...原创 2018-05-28 18:51:14 · 2413 阅读 · 0 评论 -
scrapy 爬取数据保存到mysql的基本配置
import pymysqlclass MysqlPipeline(object): def __init__(self): self.conn = None self.cur = None def open_spider(self, spider): # 连接数据库 self.conn = pymysql.co...原创 2018-06-12 21:17:49 · 874 阅读 · 0 评论 -
代理服务tinyproxy的基本设置
部分爬虫项目会用到IP池,免不了要使用tinyproxy安装:apt install tinyproxy配置:vim /etc/tinyproxy.conf修改其中的两项配置,首先, 将这一行注释掉```bash# Allow 127.0.0.1```然后,修改一下默认端口号```bashPort XXXX (自定义)```重启一下tinyproxy```bashsudo systemctl ...原创 2018-06-12 21:57:21 · 11868 阅读 · 0 评论 -
DEBUG: Filtered offsite request to
在做爬虫项目时,出现了一个问题,解析一个网站二次爬取时没有获取到数据,就写了一个测试程序试了下,测试程序如下import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Ruleclass ZhenaiSpider(CrawlSpider): name =...原创 2018-05-30 20:02:20 · 12506 阅读 · 11 评论