自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 302day(模拟登录GitHub)

《2018年7月31日》【连续302天】标题:模拟登录GitHub;内容:看书:以github实例模拟登录:进入https://github.com/login打开开发者工具,勾选Preserve Log:登录: 恢复到登录前:在response headers中有个在源码中找到authenticity_token这样就获得了所...

2018-07-31 07:57:18 107

原创 300day(代理)

《2018年7月29日》【连续300天】标题:代理;内容:https://blog.csdn.net/qq_32942549/article/details/79734739看来别人的学习笔记:https://blog.csdn.net/jesszen/article/details/80940577这里介绍一个付费代理:讯代理:http://www.xdaili.cn/...

2018-07-29 07:00:04 209

原创 299day(微博宫格验证码识别)

《2018年7月28日》【连续299天】标题:微博宫格验证码识别;内容:这种验证码是访问新浪微博移动版登陆界面时,频繁登陆或账号存在安全风险是会出现,反正我测试时,死活都没有,换自己号还提示短信验证,所以权当了解一下。1.识别思路:这里考虑到模板的概念,由于如果考虑去识别箭头的话,就要读取箭头的位置,非常麻烦,而由于只有4个格,情况叫啥,因此可以将所有的情况当成模板,...

2018-07-28 07:07:47 869 2

原创 298day(点触验证)

《2018年7月27日》【连续298天】标题:点触验证;内容:1.本来想根据之前看的滑动验证码识别去上别的网站,之前的原理是读取图片对象,获得位置,宽高后来在别的网站上尝试的时候,发现是这种情况:它将图片分成一块一块,进入它的url:https://static.geetest.com/pictures/gt/375495539/bg/92c4fbe66.we...

2018-07-27 06:54:23 430

原创 297day(tesserocr库问题)

《2018年7月26日》【连续297天】标题:tesserocr库问题;内容:1.安装库:在https://digi.bib.uni-mannheim.de/tesseract/下载tesseract安装器,安装tesseract(注意勾选语言白包),配置环境变量,在cmd,输入tesseract -v:tesseract 安装完成;指令:pip3 install te...

2018-07-26 04:45:28 278

转载 296day(极验滑动验证码识别实例)

《2018年7月25日》【连续296天】标题:极验滑动验证码识别实例;内容:import timefrom io import BytesIOfrom PIL import Imagefrom selenium import webdriverfrom selenium.webdriver import ActionChainsfrom selenium.webdriver...

2018-07-25 06:52:33 905 1

原创 295day(图形验证码的识别,极验滑动验证码识别原理)

《2018年7月24日》【连续295天】标题:图形验证码的识别,极验滑动验证码识别原理;内容:图形验证码:测试:import tesserocrfrom PIL import Imageimage =Image.open('code.jpg')result =tesserocr.image_to_text(image)print(result)在有偏差的情况...

2018-07-24 09:10:27 2252 1

原创 294day(Selenium使用补充)

《2018年7月23日》【连续294天】标题:Selenium使用补充;内容:1.查找节点:单个节点:find_element_by_id()    根据id获取find_element_by_name()   根据name值获取find_element_by_css_selector()    根据CSS选择器获取find_element_by_xpath()    ...

2018-07-23 09:02:10 121

转载 293day(关系型数据库存储)

《2018年7月22日》【连续293天】标题:关系型数据库存储;内容:1.安装PyMySQL库;2.连接数据库:import pymysqldp =pymysql.connect(host='localhost',user='***',password='***',port=3306)cursor =db.cursor()cursor.excute('SELECT...

2018-07-22 02:33:25 81

转载 292day(阅读Selenium爬取淘宝商品实例)

《2018年7月21日》【连续292天】标题:阅读Selenium爬取淘宝商品实例;内容:环境配置:安装好Chrome,Firefox,phantomJS,Selenium库,配置看ChromeDriver,GeckoDriver。import pymongofrom selenium import webdriverfrom selenium.common.exceptio...

2018-07-21 08:06:05 133

原创 291day(json,csv文件储存)

《2018年7月20日》【连续291天】标题:json,csv文件储存;内容:1import jsondata =[{ "name":"Bob", "gender":"male", "birthday":"1992-10-18" }, { "name":"王维", &quot

2018-07-20 01:49:38 79

原创 290day(结合pyquery和文件储存优化昨天的例子)

《2018年8月19日》【连续290天】标题:结合pyquery和文件储存优化昨天的例子;内容:1.pyquery与其它的解析库使用逻辑基本相同:对之前的京东商品爬取做的优化: from pyquery import PyQuery as pq def print_goods(r): doc =pq(r.text) d =doc('#J_goodsList ...

2018-07-19 02:41:21 120

原创 289day(使用BeautifulSoup练习京东商品爬取)

《2018年7月17日》【连续289天】标题:使用BeautifulSoup练习京东商品爬取;内容:1. import requestsfrom urllib.parse import urlencodefrom bs4 import BeautifulSoupfrom requests.exceptions import RequestException def...

2018-07-18 01:09:50 1093

转载 288day(Ajax练习,今日头条街拍照片爬取)

《2018年7月17日》【连续288天】标题:Ajax练习,今日头条街拍照片爬取;内容:url:https://www.toutiao.com/search/?keyword=%E8%A1%97%E6%8B%8Dimport osimport requestsfrom urllib.parse import urlencodefrom hashlib import m...

2018-07-17 06:56:04 242

原创 287day(Ajax数据爬取)

《2018年7月16日》【连续287天】标题:Ajax数据爬取;内容: 这一段以前上网学习过,这里复习一下:现在越来越多的网页的原始HTML文档不包括任何数据,而是采用Ajax统一加载:发送Ajax请求道网页更新的过程:1.发送请求2.解析内容3.渲染网页打开浏览器的开发者工具,到Networkk选项卡,使用XHR过滤工具,preview:响应的...

2018-07-16 05:38:20 251

原创 286day(xpath练习,京东商品列表爬取)

《2018年7月15日》【连续286天】标题:xpath练习,京东商品列表爬取;内容:昨天的网站看来一下,发现源代码都是js的,直接按f12了,就不能用xpath了。今天尝试了一下用xpath爬取京东的商品搜索页面,还有不少问题:import requestsfrom urllib.parse import quotefrom lxml import etreefrom requests.e...

2018-07-15 07:53:54 634

原创 285day(XPath库练习)

《2018年7月14日》【连续285天】标题:XPath库练习;内容:试着根据xpath写一个爬虫爬取b站up发布过的视频信息,先写了一个框架: import requestsfrom lxml import etreefrom requests.exceptions import RequestExceptionbaseurl ="http://space.bili...

2018-07-14 07:17:34 438 2

原创 284day(解析库复习,txt文件储存)

《2018年7月13日》【连续284天】标题:解析库复习,txt文件储存;内容:看了一下解析库内容,包括Xpath,BeautifulSoup,Pyquery;通过pyquery练习txt文件储存:import requestsfrom pyquery import PyQuery as pqurl ='http://www.zhihu.com/explore'headers ={'Use...

2018-07-13 04:37:43 173

原创 283day(re库复习,抓取猫眼电影排行练习)

《2018年7月12日》【连续283天】标题:re库复习,抓取猫眼电影排行练习;内容:1.re库中,r.group(1)的内容是正则表达式匹配的第一个括号里的内容;2.  .*是贪婪匹配,.*?是非贪婪匹配;3. .是匹配除换行符之外的任意字符,因此无法匹配换行符,加修饰符re.S即可;4.import requestsfrom requests.exceptions import Reques...

2018-07-12 06:00:24 281

原创 282day(request复习及补充)

《2018年7月11日》【连续282天】标题:request复习及补充;内容:1.昨天漏掉的:标准链接格式:scheme://netloc/path;params?query#fragment2.用request抓取二进制数据:import requestsr =requests.get("https://github.com/favicon.ico")print(r.text)print...

2018-07-11 06:05:53 177

原创 281day(基本库urllib复习)

《2018年7月10日》【连续281天】标题:基本库urllib复习;内容:复习一波基本库:1.urllib:a.urllib.request.urlopen()data参数:缺省,使用后请求方法就是post了,测试:import urllib.parseimport urllib.requestdata =bytes(urllib.parse.urlencode({'word':'hell...

2018-07-10 06:36:16 99

原创 280day(会话和Cookies,代理的基本原理)

《2018年7月9日》【连续280天】标题:会话和Cookies,代理的基本原理;内容:1.在动态网页中保持登录状态的就是通过会话和cookies共同产生的结果。1)无状态HTTP:指HTTP协议对事务处理是没有记忆能力的;因此,为了保持前后状态,就需要会话和cookies;会话在服务端;cookies在客户端;会话维持:当客户端第一次请求服务器时,服务器会返回一个请求头带Set-Cookie字段...

2018-07-09 05:07:18 218

原创 270day(网页基础补充)

《2018年7月8日》【连续270天】标题:网页基础补充;内容:之前简单地学习了一些有关网页的知识,今天看了一点书,补充一下:1.网页结构:最简单的网页实例:<!DOCTYPE html><html><head><meta charset="UTF-8"><title>This is a Demo</title>

2018-07-08 05:18:34 101

原创 269day(http原理补充:请求,响应)

《2018年7月7日》【连续269天】标题:http原理补充:请求,响应;内容:1.之前是ChromeDriver的路径没设好,导致了没法用selenium库启动chrome浏览器,将它放在python的scripts文件夹里就ok了,这样显示就意味着已经设置完成;2.今天看来新到的《python3网络爬虫实战》,讲的还是挺好的,想学爬虫的可以看看;3.URI和URL:URL是URI的子集。URI...

2018-07-07 03:59:15 203

转载 268day(PyQuery)

《2018年7月6日》【连续268天】标题:PyQuery;内容:https://cuiqingcai.com/2636.html1.2.初始化:1)直接字符串from pyquery import PyQuery as pqdoc = pq("<html></html>")2)lxml.etreefrom lxml import etreedoc = pq(etree...

2018-07-06 01:19:29 88

原创 267day(Selenium库)

《2018年7月5日》【连续267天】标题:Selenium库;内容:1.显示器突然出现了一道黄线,尝试了网上各种方法,都没用,换了输入,发现就是显示器的锅:贴吧老哥说这是排线坏了,没救了,换屏吧2.YPbPr接口,也称色差分量接口,它将音视频信号分为红、绿、蓝三条信号的传输,极大地减少了信号之间的相互干扰。其中Y代表亮度,Pb代表蓝色信号,Pr代表红色信号。3.Selenium库学习:from ...

2018-07-05 02:30:42 84

原创 266day(PhantomJS的学习)

《2018年7月4日》【连续266天】标题:PhantomJS的学习;内容:1.PhantomJS是一个无界面的,可脚本编程的WebKit浏览器引擎。它原生支持多种web 标准:DOM 操作,CSS选择器,JSON,Canvas 以及SVG。http://phantomjs.org/download.html2.打开js程序;helloworld.jsconsole.log('Hello, wor...

2018-07-04 00:34:01 119

转载 265day(lxml用法)

《2018年7月2日》【连续265天】标题:lxml用法;内容:例:from lxml import etreetext = '''<div> <ul> <li class="item-0"><a href="link1.html">first item</a></li>

2018-07-02 21:55:33 178

转载 264day(Xpath用法)

《2018年7月1日》【连续264天】标题:Xpath用法和lxml库;内容:1.XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。节点关系(1)父(Parent)每个元素以及属性都有一个父。在下面的例子中,book...

2018-07-01 22:48:01 95

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除