![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
FE and Scrapy
前端与网络
ShellDawn
Gu-Ah
展开
-
服务端:cookie和session的机制
参考:https://www.jianshu.com/p/b5efddc433f5cookie:客户端记录身份信息在http头中两个key专门用于cookieSet-Cookie:服务端响应http头部会带上,指示客户端建立一个cookie,直到这个cookie过期。一种cookie会保存在内存中,浏览器关闭就会清楚,另一种cookie会存放在硬盘中。Cookie:session:服务端记录身份信息...原创 2021-02-26 10:33:25 · 127 阅读 · 0 评论 -
go:chromedp包
非常好的教程:https://zhangguanzhang.github.io/2019/07/14/chromedp/玩chromedp一共注意三部分:1,options配置options := []chromedp.ExecAllocatorOption{ // false意味展示浏览器窗口,默认true chromedp.Flag("headless", false), ...原创 2020-01-17 14:54:47 · 1160 阅读 · 0 评论 -
FE:http状态码
406很好的一个分析https://juejin.im/entry/5a0e4976f265da431b6cc5dc406 Not Acceptable 状态码表示客户端错误,表示请求的资源的内容特性无法满足请求头中的条件,因而无法生成响应实体。 译自HTTP协议规范RFC文档即,如果请求头的 Accept字段 不符合事先约定的契约,就会返回406错误。CDN,Content Del...原创 2020-01-16 14:34:10 · 500 阅读 · 0 评论 -
Selenium: webdriver 抓不到 元素 的原因
语法错误这里不提这里只针对,浏览器端console测试javascript通过但本地python运行webdriver出错的原因浏览器延迟,页面没有刷出来这往往是最多出现的原因加一条时间延迟代码import timetime.sleep(10)# 10秒iframe跳转后名字不一样我还没遇到过,遇到过来补代码...原创 2018-12-25 00:55:42 · 903 阅读 · 0 评论 -
selenium:class含有空格的复合类
首先,class中的空格是类名的分割符号这些类名是并列的,可以使用其中任意一个来获取元素但在selenium中,直接使用带有空格的类名是不可以的原创 2018-10-18 10:39:15 · 977 阅读 · 0 评论 -
selenium:find_element_by_
browser.find_element_by_id()browser.find_element_by_name()browser.find_element_by_class_name()browser.find_element_by_xpath()原创 2018-10-17 22:04:37 · 860 阅读 · 0 评论 -
selenium:from selenium.webdriver.common.by import By
CLASS_NAMEIDCSS_SELECTORLINK_TEXTNAMEPARTIAL_LINK_TEXTTAG_NAMEXPATH原创 2018-10-17 15:09:26 · 6326 阅读 · 0 评论 -
selenium:Element is not visible
先检查xpath是否正确。 若xpath正确,则可能是页面没有刷新程序已经执行。需要在xpath前加一个sleep,来保证页面加载完成。原创 2017-04-29 14:57:26 · 1663 阅读 · 0 评论 -
selenium:expected [object undefined] undefined to be a string
火狐浏览器版本高(自动升级)的原因。 换成低于53.0版本火狐可以解决问题。原创 2017-04-29 14:11:45 · 4216 阅读 · 0 评论 -
查看selenium版本的方法
在cmd中输入python然后在python界面输入import seleniumhelp(selenium)之后在弹出的信息按空格就可以看到最后一行的版本信息原创 2017-04-15 18:49:05 · 9570 阅读 · 0 评论 -
Scrapy:测试代理ip
import requeststry: requests.get('http://www.baidu.com', proxies={'http': 'http://101.96.11.73:8080'})except: print('connect failed')else: print('success')原创 2018-07-17 15:52:17 · 2131 阅读 · 0 评论 -
32位win7安装scrapy,numpy,scipy
wheel文件下载地址:www.lfd.uci.edu/~gohlke/pythonlibs安装python27,在选项中,不要安装pip,老版本pip会出很多问题安装Microsoft Visual C++ 2008 Redistributables安装Microsoft Visual C++ Compiler Package for python2.7安装Microsoft .NET F原创 2017-02-22 12:49:15 · 525 阅读 · 0 评论 -
scrapy1.3.2 写一个简单爬虫
新建scrapy工程scrapy startproject project_name修改settings.py文件#关掉机器人协议ROBOTSTXT_OBEY = False#设置下载延迟DOWNLOAD_DELAY = 2在spiders文件下新建spider_name.py文件写入import refrom scrapy.spider import CrawlSpiderfrom sc原创 2017-04-06 16:14:31 · 372 阅读 · 0 评论 -
Ubuntu16安装Scrapy
sudo apt-get install python-pipsudo apt-get install libevent-devsudo apt-get install libssl-devsudo apt-get install scrapyscrapy version原创 2017-02-21 19:17:29 · 432 阅读 · 0 评论 -
scrapy1.3.2文件结构
新建scrapy工程scrapy startproject project_name原创 2017-04-03 15:52:30 · 861 阅读 · 0 评论 -
爬虫浏览器头headers.py文件
# encoding=utf-8agents = [ "Mozilla/5.0 (Linux; U; Android 2.3.6; en-us; Nexus S Build/GRK39F) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1", "Avant Browser/1.2.789rel1原创 2017-04-05 18:13:03 · 1305 阅读 · 0 评论 -
爬虫常用middlewares.py文件
# -*- coding: utf-8 -*-import randomfrom headers import agentsfrom cookies import cookiesfrom Proxies import PROXIESclass HeadersMiddleware(object): def process_request(self,request,spider):原创 2017-04-05 18:19:02 · 1950 阅读 · 0 评论 -
scrapy:xpath string(.)非常注意问题
text = selector.xpath('//div[@span="ct"]/string(.)').extract_first()#写成这样是xpath语法错误,而把string(.)单独提出来就可以过data = selector.xpath('//div[@span="ct"]')text = data.xpath('string(.)').extract_first()原创 2017-05-05 10:46:54 · 8403 阅读 · 2 评论 -
python scrapy xpath常用语法
Node[not(@class)] //不含class属性的node节点Node[contains(text(),a)] //文本包含字符串a的node节点Node[count(span)=2] //包含两个span节点的node节点未完待续原创 2017-02-24 16:29:50 · 713 阅读 · 0 评论 -
python scrapy re正则表达式
推荐一个unicode转换网址http://tool.chinaz.com/Tools/Unicode.aspxre正则表达式re.findall(u'\u8f6c\u53d1\[(\d+)\]',selector.xpath('//div[not(@class)]/span[1]/a/text()').extract_first())//提取“评论[11]”中的数字11re.findall原创 2017-03-26 17:16:55 · 11091 阅读 · 2 评论 -
import win32api ImportError: DLL load failed
解决办法: 将python安装根目录下 Lib\site-packages\pywin32_system32里的文件 拷贝到windows\system32下原创 2017-07-15 14:35:56 · 1004 阅读 · 1 评论