2018年07月_orangecloudy

原创 302day(模拟登录GitHub)

《2018年7月31日》【连续302天】标题：模拟登录GitHub；内容：看书：以github实例模拟登录：进入https://github.com/login打开开发者工具，勾选Preserve Log:登录：恢复到登录前：在response headers中有个在源码中找到authenticity_token这样就获得了所...

2018-07-31 07:57:18 107

原创 300day（代理）

《2018年7月29日》【连续300天】标题：代理；内容：https://blog.csdn.net/qq_32942549/article/details/79734739看来别人的学习笔记：https://blog.csdn.net/jesszen/article/details/80940577这里介绍一个付费代理：讯代理：http://www.xdaili.cn/...

2018-07-29 07:00:04 209

原创 299day（微博宫格验证码识别）

《2018年7月28日》【连续299天】标题：微博宫格验证码识别；内容：这种验证码是访问新浪微博移动版登陆界面时，频繁登陆或账号存在安全风险是会出现，反正我测试时，死活都没有，换自己号还提示短信验证，所以权当了解一下。1.识别思路：这里考虑到模板的概念，由于如果考虑去识别箭头的话，就要读取箭头的位置，非常麻烦，而由于只有4个格，情况叫啥，因此可以将所有的情况当成模板，...

2018-07-28 07:07:47 869 2

原创 298day（点触验证）

《2018年7月27日》【连续298天】标题：点触验证；内容：1.本来想根据之前看的滑动验证码识别去上别的网站，之前的原理是读取图片对象，获得位置，宽高后来在别的网站上尝试的时候，发现是这种情况：它将图片分成一块一块，进入它的url：https://static.geetest.com/pictures/gt/375495539/bg/92c4fbe66.we...

2018-07-27 06:54:23 430

原创 297day（tesserocr库问题）

《2018年7月26日》【连续297天】标题：tesserocr库问题；内容：1.安装库：在https://digi.bib.uni-mannheim.de/tesseract/下载tesseract安装器，安装tesseract（注意勾选语言白包），配置环境变量，在cmd,输入tesseract -v:tesseract 安装完成；指令：pip3 install te...

2018-07-26 04:45:28 278

转载 296day（极验滑动验证码识别实例）

《2018年7月25日》【连续296天】标题：极验滑动验证码识别实例;内容：import timefrom io import BytesIOfrom PIL import Imagefrom selenium import webdriverfrom selenium.webdriver import ActionChainsfrom selenium.webdriver...

2018-07-25 06:52:33 905 1

原创 295day（图形验证码的识别，极验滑动验证码识别原理）

《2018年7月24日》【连续295天】标题：图形验证码的识别，极验滑动验证码识别原理；内容：图形验证码：测试：import tesserocrfrom PIL import Imageimage =Image.open('code.jpg')result =tesserocr.image_to_text(image)print(result)在有偏差的情况...

2018-07-24 09:10:27 2252 1

原创 294day（Selenium使用补充）

《2018年7月23日》【连续294天】标题：Selenium使用补充；内容：1.查找节点：单个节点：find_element_by_id() 根据id获取find_element_by_name() 根据name值获取find_element_by_css_selector() 根据CSS选择器获取find_element_by_xpath() ...

2018-07-23 09:02:10 121

转载 293day（关系型数据库存储）

《2018年7月22日》【连续293天】标题：关系型数据库存储；内容：1.安装PyMySQL库；2.连接数据库：import pymysqldp =pymysql.connect(host='localhost',user='***',password='***',port=3306)cursor =db.cursor()cursor.excute('SELECT...

2018-07-22 02:33:25 81

转载 292day（阅读Selenium爬取淘宝商品实例）

《2018年7月21日》【连续292天】标题：阅读Selenium爬取淘宝商品实例;内容：环境配置：安装好Chrome,Firefox,phantomJS,Selenium库,配置看ChromeDriver,GeckoDriver。import pymongofrom selenium import webdriverfrom selenium.common.exceptio...

2018-07-21 08:06:05 133

原创 291day（json,csv文件储存）

《2018年7月20日》【连续291天】标题：json,csv文件储存;内容：1import jsondata =[{ "name":"Bob", "gender":"male", "birthday":"1992-10-18" }, { "name":"王维", &quot

2018-07-20 01:49:38 79

原创 290day(结合pyquery和文件储存优化昨天的例子)

《2018年8月19日》【连续290天】标题：结合pyquery和文件储存优化昨天的例子；内容：1.pyquery与其它的解析库使用逻辑基本相同：对之前的京东商品爬取做的优化： from pyquery import PyQuery as pq def print_goods(r): doc =pq(r.text) d =doc('#J_goodsList ...

2018-07-19 02:41:21 120

原创 289day(使用BeautifulSoup练习京东商品爬取)

《2018年7月17日》【连续289天】标题：使用BeautifulSoup练习京东商品爬取；内容：1. import requestsfrom urllib.parse import urlencodefrom bs4 import BeautifulSoupfrom requests.exceptions import RequestException def...

2018-07-18 01:09:50 1093

转载 288day(Ajax练习，今日头条街拍照片爬取)

《2018年7月17日》【连续288天】标题：Ajax练习，今日头条街拍照片爬取；内容：url:https://www.toutiao.com/search/?keyword=%E8%A1%97%E6%8B%8Dimport osimport requestsfrom urllib.parse import urlencodefrom hashlib import m...

2018-07-17 06:56:04 242

原创 287day（Ajax数据爬取）

《2018年7月16日》【连续287天】标题：Ajax数据爬取；内容：这一段以前上网学习过，这里复习一下：现在越来越多的网页的原始HTML文档不包括任何数据，而是采用Ajax统一加载：发送Ajax请求道网页更新的过程：1.发送请求2.解析内容3.渲染网页打开浏览器的开发者工具，到Networkk选项卡，使用XHR过滤工具，preview：响应的...

2018-07-16 05:38:20 251

《2018年7月15日》【连续286天】标题：xpath练习，京东商品列表爬取；内容：昨天的网站看来一下，发现源代码都是js的，直接按f12了，就不能用xpath了。今天尝试了一下用xpath爬取京东的商品搜索页面，还有不少问题：import requestsfrom urllib.parse import quotefrom lxml import etreefrom requests.e...

2018-07-15 07:53:54 634

原创 285day（XPath库练习）

《2018年7月14日》【连续285天】标题：XPath库练习；内容：试着根据xpath写一个爬虫爬取b站up发布过的视频信息，先写了一个框架： import requestsfrom lxml import etreefrom requests.exceptions import RequestExceptionbaseurl ="http://space.bili...

2018-07-14 07:17:34 438 2

原创 284day（解析库复习,txt文件储存）

《2018年7月13日》【连续284天】标题：解析库复习,txt文件储存；内容：看了一下解析库内容，包括Xpath,BeautifulSoup，Pyquery;通过pyquery练习txt文件储存：import requestsfrom pyquery import PyQuery as pqurl ='http://www.zhihu.com/explore'headers ={'Use...

2018-07-13 04:37:43 173

原创 283day(re库复习，抓取猫眼电影排行练习)

《2018年7月12日》【连续283天】标题：re库复习，抓取猫眼电影排行练习；内容：1.re库中，r.group(1)的内容是正则表达式匹配的第一个括号里的内容;2. .*是贪婪匹配，.*?是非贪婪匹配；3. .是匹配除换行符之外的任意字符，因此无法匹配换行符，加修饰符re.S即可；4.import requestsfrom requests.exceptions import Reques...

2018-07-12 06:00:24 281

原创 282day（request复习及补充）

《2018年7月11日》【连续282天】标题：request复习及补充；内容：1.昨天漏掉的：标准链接格式：scheme://netloc/path;params?query#fragment2.用request抓取二进制数据：import requestsr =requests.get("https://github.com/favicon.ico")print(r.text)print...

2018-07-11 06:05:53 177

原创 281day（基本库urllib复习）

《2018年7月10日》【连续281天】标题：基本库urllib复习；内容：复习一波基本库：1.urllib:a.urllib.request.urlopen()data参数：缺省，使用后请求方法就是post了，测试：import urllib.parseimport urllib.requestdata =bytes(urllib.parse.urlencode({'word':'hell...

2018-07-10 06:36:16 99

原创 280day（会话和Cookies，代理的基本原理）

《2018年7月9日》【连续280天】标题：会话和Cookies，代理的基本原理；内容：1.在动态网页中保持登录状态的就是通过会话和cookies共同产生的结果。1）无状态HTTP：指HTTP协议对事务处理是没有记忆能力的；因此，为了保持前后状态，就需要会话和cookies；会话在服务端；cookies在客户端；会话维持：当客户端第一次请求服务器时，服务器会返回一个请求头带Set-Cookie字段...

2018-07-09 05:07:18 218

原创 270day（网页基础补充）

《2018年7月8日》【连续270天】标题：网页基础补充；内容：之前简单地学习了一些有关网页的知识，今天看了一点书，补充一下：1.网页结构：最简单的网页实例：<!DOCTYPE html><html><head><meta charset="UTF-8"><title>This is a Demo</title>

2018-07-08 05:18:34 101

原创 269day（http原理补充：请求，响应）

《2018年7月7日》【连续269天】标题：http原理补充：请求，响应；内容：1.之前是ChromeDriver的路径没设好，导致了没法用selenium库启动chrome浏览器，将它放在python的scripts文件夹里就ok了，这样显示就意味着已经设置完成；2.今天看来新到的《python3网络爬虫实战》，讲的还是挺好的，想学爬虫的可以看看；3.URI和URL:URL是URI的子集。URI...

2018-07-07 03:59:15 203

转载 268day（PyQuery）

《2018年7月6日》【连续268天】标题：PyQuery；内容：https://cuiqingcai.com/2636.html1.2.初始化：1）直接字符串from pyquery import PyQuery as pqdoc = pq("<html></html>")2）lxml.etreefrom lxml import etreedoc = pq(etree...

2018-07-06 01:19:29 88

原创 267day（Selenium库）

《2018年7月5日》【连续267天】标题：Selenium库；内容：1.显示器突然出现了一道黄线，尝试了网上各种方法，都没用，换了输入，发现就是显示器的锅：贴吧老哥说这是排线坏了，没救了，换屏吧2.YPbPr接口，也称色差分量接口，它将音视频信号分为红、绿、蓝三条信号的传输，极大地减少了信号之间的相互干扰。其中Y代表亮度，Pb代表蓝色信号，Pr代表红色信号。3.Selenium库学习：from ...

2018-07-05 02:30:42 84

原创 266day（PhantomJS的学习）

《2018年7月4日》【连续266天】标题：PhantomJS的学习；内容：1.PhantomJS是一个无界面的,可脚本编程的WebKit浏览器引擎。它原生支持多种web 标准：DOM 操作，CSS选择器，JSON，Canvas 以及SVG。http://phantomjs.org/download.html2.打开js程序；helloworld.jsconsole.log('Hello, wor...

2018-07-04 00:34:01 119

转载 265day(lxml用法)

《2018年7月2日》【连续265天】标题：lxml用法；内容：例：from lxml import etreetext = '''<div> <ul> <li class="item-0"><a href="link1.html">first item</a></li>

2018-07-02 21:55:33 178

转载 264day（Xpath用法）

《2018年7月1日》【连续264天】标题：Xpath用法和lxml库；内容：1.XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。节点关系（1）父（Parent）每个元素以及属性都有一个父。在下面的例子中，book...

2018-07-01 22:48:01 95

orangecloudy的博客