使用Python requests库的坑 最近在测试代理ip时,发现requests的一个小问题 获取到的代理ip均为为{'HTTP':"HTTP://*.*.*.*:PORT"}但是传入requests.Session.get(proxies=proxy)时,不起作用 开启全局logging,发现requests没有使用代理,从被访问页面获取的数据也是本地ip 直到发现这requests不识别大写字母的代理类型 ...
《新浪微博爬虫》第一节:模拟登陆 爬虫基于Requests + ScrapyRequests获取Cookie,Scrapy框架通过Cookie登录爬取。本次模拟登录使用request的会话机制维持登录状态模拟登录流程分析:手动登录,使用浏览器develop功能分析登录流程根据上一步的分析结构,手动构建请求参数处理验证等过程,完成登录登录成功保存Cookie到文件一. 预登陆 当键入账号后,新浪会...
Scrapy实践-爬取当当网书籍信息 Python Scrapy库爬虫——爬取当当网书籍实现爬虫获得豆瓣书籍信息存入数据库中,学习记录根据分类获取书籍信息,包括书籍名字、作者、出版社、出版日期、价格等信息根据书籍类别存入数据库完整爬取步骤一. 设计数据库结构 二. 分析当当网页结构 三. 编写Spider类,抽取关键内容 四. 编写ItemPipeline实现保存数据数据到数据库 五. 开...
排序算法 排序算法快速排序 ***快速排序基于二分法思想,选取一个数作为基数,使基数左面的值小于基数,基数右面的值均大于该基数,将数组根据基数分为两个相同部分,递归排序。***void quick_sort(int left,int right,int * array){ if (left > right) return; int i=left,j...
推荐的C/C++框架和库 值得推荐的C/C++框架和库 【本文系外部转贴,原文地址:http://coolshell.info/c/c++/2014/12/13/c-open-project.htm】留作存档 下次造轮子前先看看现有的轮子吧值得学习的C语言开源项目Webbench Webbench是一个在linux下使用的非常简单的网站压测工具。它使用fork()模拟多个客户端同时访问我们设定的URL,...
类的自动转换和强制类型转换 类型自动转换在C++中,把接受一个参数的构造函数称作自动类型转换函数.class A{private: int a;public: A(){}; A(double d){a=d;} ~A(){std::cout<<"调用析构函数";} void show(){std::cout<<a<<std::endl;}}定义了可以接受一个double类型的构
cv限定符 const 用于内存被初始化后不能修改。 volatile 易变值,程序代码没有修改其值,其值可能会发生变化,如指向硬件地址如串口或多个程序共同影响等。目的防止编译器对其优化。void test_volatile(int *p){ int a=*p; ... int b=*p;}这个程序在执行期间对p指针两次进行解引用 编译器处理时可能会产生如下代码int _t=*p
算法 记录一下平时用到的算法 语言c/c++将int数组按奇数偶数分开 例如 [1,2,3,4,5,6,7,8,9,10] 排列后 [2,4,6,8,10,1,3,5,7,9]int * even_odd(int *array,int lenght){ int i=0,tmp; while (lenght--){ if ((array[i])%2==0){
Python格式化字符串 Python格式化字符串格式化操作符(%)格式化字符串是最常用的操作,今天记录一下。 操作符 说明 %s 最常用的用于格式化字符串 %r 使用repr()函数格式化 %c 格式化为ASCII字符 (对0~255返回对应ASCII码)or 字符型 %e 格式化为科学计数方法 %f 浮点数格式 %d/%i 有符号的十进制数 %u 无符号十进制