FE and Scrapy
前端与网络
ShellDawn
Gu-Ah
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
服务端:cookie和session的机制
参考:https://www.jianshu.com/p/b5efddc433f5 cookie: 客户端记录身份信息 在http头中两个key专门用于cookie Set-Cookie:服务端响应http头部会带上,指示客户端建立一个cookie,直到这个cookie过期。一种cookie会保存在内存中,浏览器关闭就会清楚,另一种cookie会存放在硬盘中。 Cookie: session: 服务端记录身份信息 ...原创 2021-02-26 10:33:25 · 342 阅读 · 0 评论 -
go:chromedp包
非常好的教程:https://zhangguanzhang.github.io/2019/07/14/chromedp/ 玩chromedp一共注意三部分: 1,options配置 options := []chromedp.ExecAllocatorOption{ // false意味展示浏览器窗口,默认true chromedp.Flag("headless", false), ...原创 2020-01-17 14:54:47 · 1313 阅读 · 0 评论 -
FE:http状态码
406 很好的一个分析https://juejin.im/entry/5a0e4976f265da431b6cc5dc 406 Not Acceptable 状态码表示客户端错误,表示请求的资源的内容特性无法满足请求头中的条件,因而无法生成响应实体。 译自HTTP协议规范RFC文档 即, 如果请求头的 Accept字段 不符合事先约定的契约,就会返回406错误。 CDN,Content Del...原创 2020-01-16 14:34:10 · 659 阅读 · 0 评论 -
Selenium: webdriver 抓不到 元素 的原因
语法错误这里不提 这里只针对,浏览器端console测试javascript通过 但本地python运行webdriver出错的原因 浏览器延迟,页面没有刷出来 这往往是最多出现的原因 加一条时间延迟代码 import time time.sleep(10) # 10秒 iframe跳转后名字不一样 我还没遇到过,遇到过来补代码 ...原创 2018-12-25 00:55:42 · 995 阅读 · 0 评论 -
selenium:class含有空格的复合类
首先,class中的空格是类名的分割符号 这些类名是并列的,可以使用其中任意一个来获取元素 但在selenium中,直接使用带有空格的类名是不可以的原创 2018-10-18 10:39:15 · 1062 阅读 · 0 评论 -
selenium:find_element_by_
browser.find_element_by_id() browser.find_element_by_name() browser.find_element_by_class_name() browser.find_element_by_xpath()原创 2018-10-17 22:04:37 · 948 阅读 · 0 评论 -
selenium:from selenium.webdriver.common.by import By
CLASS_NAME ID CSS_SELECTOR LINK_TEXT NAME PARTIAL_LINK_TEXT TAG_NAME XPATH原创 2018-10-17 15:09:26 · 6615 阅读 · 0 评论 -
selenium:Element is not visible
先检查xpath是否正确。 若xpath正确,则可能是页面没有刷新程序已经执行。需要在xpath前加一个sleep,来保证页面加载完成。原创 2017-04-29 14:57:26 · 1734 阅读 · 0 评论 -
selenium:expected [object undefined] undefined to be a string
火狐浏览器版本高(自动升级)的原因。 换成低于53.0版本火狐可以解决问题。原创 2017-04-29 14:11:45 · 4307 阅读 · 0 评论 -
查看selenium版本的方法
在cmd中输入python然后在python界面输入import selenium help(selenium)之后在弹出的信息按空格就可以看到最后一行的版本信息原创 2017-04-15 18:49:05 · 10244 阅读 · 0 评论 -
Scrapy:测试代理ip
import requests try: requests.get('http://www.baidu.com', proxies={'http': 'http://101.96.11.73:8080'}) except: print('connect failed') else: print('success')原创 2018-07-17 15:52:17 · 2206 阅读 · 0 评论 -
32位win7安装scrapy,numpy,scipy
wheel文件下载地址:www.lfd.uci.edu/~gohlke/pythonlibs 安装python27,在选项中,不要安装pip,老版本pip会出很多问题 安装Microsoft Visual C++ 2008 Redistributables 安装Microsoft Visual C++ Compiler Package for python2.7 安装Microsoft .NET F原创 2017-02-22 12:49:15 · 638 阅读 · 0 评论 -
scrapy1.3.2 写一个简单爬虫
新建scrapy工程scrapy startproject project_name修改settings.py文件#关掉机器人协议 ROBOTSTXT_OBEY = False #设置下载延迟 DOWNLOAD_DELAY = 2在spiders文件下新建spider_name.py文件写入import re from scrapy.spider import CrawlSpider from sc原创 2017-04-06 16:14:31 · 484 阅读 · 0 评论 -
Ubuntu16安装Scrapy
sudo apt-get install python-pip sudo apt-get install libevent-dev sudo apt-get install libssl-dev sudo apt-get install scrapy scrapy version原创 2017-02-21 19:17:29 · 496 阅读 · 0 评论 -
scrapy1.3.2文件结构
新建scrapy工程scrapy startproject project_name原创 2017-04-03 15:52:30 · 930 阅读 · 0 评论 -
爬虫浏览器头headers.py文件
# encoding=utf-8agents = [ "Mozilla/5.0 (Linux; U; Android 2.3.6; en-us; Nexus S Build/GRK39F) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1", "Avant Browser/1.2.789rel1原创 2017-04-05 18:13:03 · 1387 阅读 · 0 评论 -
爬虫常用middlewares.py文件
# -*- coding: utf-8 -*-import randomfrom headers import agents from cookies import cookies from Proxies import PROXIESclass HeadersMiddleware(object): def process_request(self,request,spider):原创 2017-04-05 18:19:02 · 2039 阅读 · 0 评论 -
scrapy:xpath string(.)非常注意问题
text = selector.xpath('//div[@span="ct"]/string(.)').extract_first() #写成这样是xpath语法错误,而把string(.)单独提出来就可以过 data = selector.xpath('//div[@span="ct"]') text = data.xpath('string(.)').extract_first()原创 2017-05-05 10:46:54 · 8531 阅读 · 2 评论 -
python scrapy xpath常用语法
Node[not(@class)] //不含class属性的node节点 Node[contains(text(),a)] //文本包含字符串a的node节点 Node[count(span)=2] //包含两个span节点的node节点未完待续原创 2017-02-24 16:29:50 · 782 阅读 · 0 评论 -
python scrapy re正则表达式
推荐一个unicode转换网址http://tool.chinaz.com/Tools/Unicode.aspx re正则表达式 re.findall(u'\u8f6c\u53d1\[(\d+)\]',selector.xpath('//div[not(@class)]/span[1]/a/text()').extract_first()) //提取“评论[11]”中的数字11 re.findall原创 2017-03-26 17:16:55 · 11183 阅读 · 2 评论 -
import win32api ImportError: DLL load failed
解决办法: 将python安装根目录下 Lib\site-packages\pywin32_system32里的文件 拷贝到windows\system32下原创 2017-07-15 14:35:56 · 1125 阅读 · 1 评论
分享